硅谷數(shù)據(jù)科學(xué)家成長(zhǎng)之路-筆記

1我是如何選擇統(tǒng)計(jì)這個(gè)專業(yè),讀博的一些經(jīng)歷

2讀博期間的做了兩個(gè)暑期實(shí)習(xí),提高工作經(jīng)驗(yàn)

3去年十月份到十一月份找數(shù)據(jù)科學(xué)家工作的一些經(jīng)歷

? ? ? 讀碩士期間認(rèn)識(shí)tiger,本科上海交大核工業(yè)專業(yè)、碩士物理學(xué)和博士專業(yè)都不一樣,本科后本來(lái)簽了一個(gè)核電站的工作,但是因個(gè)人原因就選擇出國(guó),拿到碩士全獎(jiǎng),碩士期間選修一些數(shù)學(xué)和統(tǒng)計(jì),發(fā)現(xiàn)自己對(duì)統(tǒng)計(jì)的理解比量子物理更容易,而且發(fā)現(xiàn)統(tǒng)計(jì)學(xué)更容易找工作,于是申請(qǐng)博士。當(dāng)時(shí)申請(qǐng)到4家offer,因?yàn)閁CSD的學(xué)校排名最高,UCSD的教授也比較有名氣,所以來(lái)讀博。本科、碩士沒(méi)有任何數(shù)學(xué)和統(tǒng)計(jì)背景,如果你有一個(gè)目標(biāo),你就會(huì)想盡辦法去達(dá)到,例如我碩士期間選修一些數(shù)學(xué)和統(tǒng)計(jì)課,拿到統(tǒng)計(jì)教授的推薦信,這時(shí)我為什么選擇統(tǒng)計(jì)的原因。

? ? ? ? 美國(guó)的統(tǒng)計(jì)學(xué)博士學(xué)校不多,共五十多所學(xué)校有統(tǒng)計(jì)課,統(tǒng)計(jì)博士學(xué)位在數(shù)學(xué)系下,有五位統(tǒng)計(jì)教授和五位概率學(xué)教授,學(xué)校的統(tǒng)計(jì)專業(yè)還是不錯(cuò)的,計(jì)算機(jī)系也很優(yōu)秀,有很多業(yè)界很著名教授做人工智能這塊,統(tǒng)計(jì)課有很多專業(yè)課需要修,對(duì)中國(guó)學(xué)生來(lái)說(shuō)很容易,但是比較難的是做科研,如何發(fā)paper,需要一定的科學(xué)成果才能達(dá)到畢業(yè)要求,這是每個(gè)博士都覺(jué)得困難的地方。 我們教育模式我們更擅長(zhǎng)考試,但并不一定擅長(zhǎng)創(chuàng)造性的研究,我比較幸運(yùn)遇到一個(gè)很好的導(dǎo)師,在他的領(lǐng)導(dǎo)下我的博士道路進(jìn)展還算順利。修很多統(tǒng)計(jì)課,筆試,開(kāi)題報(bào)告,發(fā)一些paper證明你達(dá)到統(tǒng)計(jì)博士水平,博士論文答辯。

? ? ? ? 讀博期間的科研,ucsd的科研做了很多,真正發(fā)表paper的只有后面三個(gè),寫進(jìn)論文的有四個(gè)project,F(xiàn)rom Sparse PCA to Sparse Clustering,A Simple Approach to Sparse Clustering,Semiparametric Estimation of Symmetric Mixture Models,Concentration of Measure for Radial Distributions。

? ? ? ? 老板給了一個(gè)很難的課題,要做很多理論分析,項(xiàng)目做起來(lái)很困難,八個(gè)月做起來(lái)了,做了很多證明,因?yàn)轫?xiàng)目立意不夠新,沒(méi)有太強(qiáng)的原創(chuàng)性,于是不發(fā)表paper,讓我很被動(dòng),當(dāng)時(shí)一度想放棄想找工作。但是老板又給了一個(gè)課題,說(shuō)這個(gè)很容易,然后就有了第一篇文章,這篇統(tǒng)計(jì)學(xué)的paper用了五個(gè)月的省稿時(shí)間,統(tǒng)計(jì)學(xué)論文省稿周期一般是一到二年,這篇文章被用了之后增大了我的自信。自己找一些課題,老板的畢業(yè)要求至少三篇文章,其中一篇是自己的idea,自己是第一原創(chuàng)作者,博士后需要自己找課題自己寫文章。

? ? ? ? 業(yè)余生活,攀巖,圖書(shū)館,海景,建筑,公園,(想象……)

? ? ? ?讀博面臨一個(gè)問(wèn)題,選擇學(xué)術(shù)界還是工業(yè)界,做學(xué)術(shù)并不是一件容易的事情,統(tǒng)計(jì)教授付出的時(shí)間和回報(bào)并不一定成正比,我老板正教授年薪15萬(wàn)美金,博士畢業(yè)做教授,先做一兩個(gè)博士后六萬(wàn)五千美金,找到教職也需要很大精力,助理教授九萬(wàn)五千美金。好處拿到終身教授,就是鐵飯碗,不擔(dān)心失業(yè)問(wèn)題,金融危機(jī)什么的也不怕,想去學(xué)術(shù)界你的文章就需要很好,學(xué)術(shù)研究很有名,你的老板也要很有名氣,你還要會(huì)教書(shū)。工業(yè)需要擴(kuò)展自己的一些技能,數(shù)據(jù)科學(xué)是一個(gè)交叉學(xué)科,計(jì)算機(jī),數(shù)學(xué)和統(tǒng)計(jì),以及一些背景知識(shí)的結(jié)合。我是統(tǒng)計(jì)博士對(duì)統(tǒng)計(jì)這塊了解深入,但是不代表我能做大數(shù)據(jù),并不能代表能成為一個(gè)很好的數(shù)據(jù)科學(xué)家。

? ? ? ? 讀博期間選修了一些計(jì)算機(jī)系的課,數(shù)學(xué)算法,人工智能,選修或者旁聽(tīng)課,提高自己的技能,有了這樣一個(gè)認(rèn)知,我就去修課去找實(shí)習(xí),我博士二年級(jí)做開(kāi)題報(bào)告,當(dāng)時(shí)已經(jīng)拿到一個(gè)實(shí)習(xí)offer,找暑期實(shí)習(xí)還是比較困難,想去硅谷大公司做實(shí)習(xí),沒(méi)有任何經(jīng)驗(yàn)就比較困難,最后拿到兩個(gè)面試,得到一個(gè)Teradata的工作,想利用我對(duì)統(tǒng)計(jì)的理解和人工智能方面做一款軟件,去分析數(shù)據(jù)的實(shí)習(xí)。第二年找實(shí)習(xí)是Yahoo的實(shí)習(xí),做的是數(shù)據(jù)科學(xué)家的工作,Yahoo收入依賴于廣告,曾經(jīng)輝煌過(guò),現(xiàn)在被收購(gòu),實(shí)習(xí)主要做預(yù)測(cè)廣告點(diǎn)擊率,需要很多人工智能的方法,用某些模型去估計(jì)廣告點(diǎn)擊率,我們就知道給什么用戶推薦什么廣告,能增加用戶的點(diǎn)擊率。線上廣告推廣,谷歌或是Facebook的營(yíng)收,廣告占了很大一部分,廣告這塊是個(gè)很有價(jià)值可挖的部分。如果你能增加用戶的點(diǎn)擊率和轉(zhuǎn)換率,你就能賺很多錢。廣告實(shí)時(shí)競(jìng)價(jià)系統(tǒng)里面的一些模型,發(fā)送廣告是為了提高品牌效應(yīng),對(duì)應(yīng)的模型是CPM模型,想降低每一百萬(wàn)用戶看到廣告所消耗的成本。如果發(fā)送廣告是為了增加用戶的點(diǎn)擊率和轉(zhuǎn)化率,就是我們需要賣產(chǎn)品,那就是有兩種模型,一個(gè)是CPC,為了降低廣告供應(yīng)商每一個(gè)點(diǎn)擊轉(zhuǎn)化所消耗的成本,另一個(gè)是CPV。我們的模型是CPC,量化標(biāo)準(zhǔn)是廣告的點(diǎn)擊率。我做的實(shí)習(xí)是CPR的預(yù)估,廣告實(shí)時(shí)競(jìng)價(jià)系統(tǒng),是一個(gè)很龐雜的系統(tǒng),大多數(shù)谷歌員工在做廣告,Yahoo做cpc模型,目的就是為了提高用戶點(diǎn)擊率,用以往的數(shù)據(jù)去估計(jì)點(diǎn)擊率。這樣的實(shí)時(shí)競(jìng)價(jià)系統(tǒng),最頂層是廣告供應(yīng)商是出錢的,例如facebook,把廣告位賣給了廣告供應(yīng)商,決定給什么用戶什么廣告,一方面提高用戶轉(zhuǎn)化率另一方面降低廣告商成本。

? ? ? ? 我在Yahoo做的項(xiàng)目,它的數(shù)據(jù)龐大,幾百萬(wàn)條用戶信息和所對(duì)應(yīng)的廣告信息,投放廣告的信息,廣告供應(yīng)商的信息,廣告本身的信息和用戶的一些信息,例如用戶體驗(yàn)和用戶個(gè)人的信息,怎么去提取有用變量,怎么建立模型,用這些模型去預(yù)測(cè)用戶的點(diǎn)擊率(CTR)。這廣告被點(diǎn)擊它的變量就是1,沒(méi)有被點(diǎn)擊那就是零,這是個(gè)分類問(wèn)題。我們真正關(guān)注的是點(diǎn)擊的概率有多少,我們用的是邏輯回歸模型,可以直接給我們用戶點(diǎn)擊的概念。人工智能的一個(gè)很重要的問(wèn)題是它的方法有很多,真正預(yù)測(cè)CTR的時(shí)候所用的方法只有決策樹(shù)模型,DT,JDBT,LR。在Yahoo所做的事情給你很多數(shù)據(jù),選擇有用的變量,建模型,預(yù)測(cè)將來(lái)的點(diǎn)擊率,做很多線下實(shí)驗(yàn),如果能增加用戶的點(diǎn)擊率,才可以做線上實(shí)驗(yàn),線上實(shí)驗(yàn)成功后才可以放到實(shí)戰(zhàn)當(dāng)中,如果證明有用,才可以長(zhǎng)期使用,才能為公司賺很多錢。當(dāng)時(shí)帶我的導(dǎo)師是一個(gè)工作三四年的博士,因?yàn)橹暗膬蓚€(gè)員工不是很想做于是跳槽,當(dāng)時(shí)我正好在實(shí)習(xí),導(dǎo)師讓我做,最后這個(gè)項(xiàng)目提高了CTR,讓我拿到offer。

? ? ? ? 我找工作的一些經(jīng)歷,找full-time的一些經(jīng)歷,數(shù)據(jù)科學(xué)家的工作,刷了一百道簡(jiǎn)單的題,對(duì)我比較難的是編程算法題,比較簡(jiǎn)單的是統(tǒng)計(jì)方面的問(wèn)題和數(shù)據(jù)相關(guān)的問(wèn)題,我面試谷歌時(shí)失敗的經(jīng)歷,問(wèn)的問(wèn)題偏向統(tǒng)計(jì),例如很難的概率題,用R和Python去分析數(shù)據(jù)……。四輪面試,最后一輪感覺(jué)到我的交流溝通能力不強(qiáng),給一個(gè)不是統(tǒng)計(jì)方面的數(shù)據(jù)科學(xué)家說(shuō)我簡(jiǎn)歷上的項(xiàng)目時(shí)不能講的很明白,最后hr給我的反饋說(shuō)我的一個(gè)表現(xiàn)不是很好,最后兩選一給了另一個(gè)有經(jīng)驗(yàn)的人??偨Y(jié)經(jīng)驗(yàn)去面了兩家公司一個(gè)是美國(guó)版的知乎,另一個(gè)是電商公司,拿下了兩家的offer,最后選擇了電商公司。求職面試過(guò)程中有時(shí)候不是你的technique方面的技能,有時(shí)候溝通表達(dá)能力可能更重要,也是認(rèn)清自己的一個(gè)過(guò)程,你會(huì)遇到很多牛人,會(huì)激發(fā)自己去努力。

? ? ? ? 數(shù)據(jù)科學(xué)家(DS),資深數(shù)據(jù)科學(xué)家,principal DS,管理層,經(jīng)理,總監(jiān),資深總監(jiān),vp,資深vp。

? ? ? ? ?實(shí)習(xí)時(shí)導(dǎo)師給我的一個(gè)建議,作為一個(gè)數(shù)據(jù)科學(xué)家,如果你能同時(shí)不斷提升自己,發(fā)文章,能提高自己的價(jià)值,提升自己在業(yè)界的影響力。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容