2.adaboost和xgboost的區(qū)別;xgboost的并行體現(xiàn)在哪(工程上的并行,不是計算上的并行)(猿輔導)
參考答案
Adaboost與GBDT兩者boosting的不同策略是兩者的本質(zhì)區(qū)別。
Adaboost強調(diào)Adaptive(自適應(yīng)),通過不斷修改樣本權(quán)重(增大分錯樣本權(quán)重,降低分對樣本權(quán)重),不斷加入弱分類器進行boosting。
Xgboost則是旨在不斷減少殘差(回歸),可以人為定義損失函數(shù)(可以是最小平方差、logistic
loss function、hinge loss function或者人為定義的loss function),只需要知道該loss function對參數(shù)的一階、二階導數(shù)便可以進行boosting,其進一步增大了模型的泛華能力
==兩者本質(zhì)區(qū)別還是boosting的策略。adaboost強調(diào)的是對分錯樣本的權(quán)重增加,不斷加入弱學習器。XGboost則是在于減少殘差
==adaboost還是比較傳統(tǒng)的那種boosting,方向是增加分錯的權(quán)重;而GBDT就是比較特殊的,它的方向是降低殘差。(4.16
3.K-means、K-means?算法的優(yōu)缺點(bigo、字節(jié)跳動、京東、廣聯(lián)達)
參考答案
優(yōu)點:當潛在的簇形狀是凸面,簇與簇之間較明顯,且簇大小相近時,結(jié)果較理想。對于處理大數(shù)據(jù),該算法高效且伸縮性較好。
缺點:要事先確定k;對于初始簇中心敏感,常以局部最優(yōu)結(jié)束,對孤立點敏感,不適于發(fā)現(xiàn)非凸的簇或大小差別大的簇。
==kmeans這么多公司考嗎?這不就是一個簡單的聚類嗎?不過優(yōu)缺點還真不好說。(4.16
4.KNN、K-Means區(qū)別(京東)
參考答案
KNN是分類算法,它是監(jiān)督學習,知道了結(jié)果去效驗結(jié)果是否正確。 K-Means是聚類算法,它是非監(jiān)督學習,它需要先自己算去一個結(jié)果。
答案解析
5.介紹一下k-means,你的數(shù)據(jù)如何處理,模型的輸出是什么?(浦發(fā)銀行)
參考答案
介紹kmeans:
第一步:數(shù)據(jù)歸一化、離群點處理后,隨機選擇k個聚類質(zhì)心
第二步:所有數(shù)據(jù)點關(guān)聯(lián)劃分到離自己最近的質(zhì)心,形成k個簇;
第三步:重新計算每個簇的質(zhì)心;
重復第二步、第三步,直到簇不發(fā)生變化或達到最大迭代次數(shù);
==介紹一下算法步驟,首先對數(shù)據(jù)進行歸一化,處理離群點,然后選擇K個聚類中心;將所有的點分到相對最近的聚類中心,這樣就形成了K個簇;然后對每個簇重新計算聚類中心
數(shù)據(jù)如何處理:
為了防止均值和方差大的維度將對數(shù)據(jù)的聚類產(chǎn)生決定性影響,所以在聚類前我們對數(shù)據(jù)進行了歸一化處理。
==主要就是歸一化
模型輸出:
n個維度,輸出為?的向量。[0 1 1 0 1],就是把第1,4維分為一類,其他分為另一類。
答案解析
kmeans聚類的過程和步驟。
機器學習與數(shù)據(jù)挖掘-2
6.實習內(nèi)容中:RFM模型和kmeans(猿輔導)
參考答案
RFM模型根據(jù)客戶活躍程度和交易金額的貢獻,進行客戶價值細分的 一種方法。它能夠識別優(yōu)質(zhì)客戶;可以制定個性化的溝通和營銷服務(wù),為更多的營銷決策提供有力支持;能夠衡量客戶價值和客戶利潤創(chuàng)收能力。
R(Recency)——最近一次交易時間間隔。
F(Frequency)——客戶在最近一段時間內(nèi)交易次數(shù)。
M(Monetray)——客戶最近一段時間內(nèi)交易金額。
==RFM與隨機森林無關(guān)哈,準確的說,是根據(jù)客戶活躍程度和交易金額的貢獻,來對客戶價值進行細分的一種方法。用來給決策提高更加有力的支持。
三個字母的意思如上,就是交易時間,交易次數(shù)和交易金額
Kmeans算法:
第一步:數(shù)據(jù)歸一化、離群點處理后,隨機選擇k個聚類質(zhì)心
第二步:所有數(shù)據(jù)點關(guān)聯(lián)劃分到離自己最近的質(zhì)心,形成k個簇;
第三步:重新計算每個簇的質(zhì)心;
重復第二步、第三步,直到簇不發(fā)生變化或達到最大迭代次數(shù)。
7.特征工程怎么做的,選擇了哪些特征作為預測變量?為什么用RFM模型來構(gòu)建特征變量?(字節(jié)跳動)
參考答案
特征工程包括:特征構(gòu)建->特征提取->特征選擇。
選擇特征:用戶行為特征、用戶消費特征、用戶畫像特征
==特征工程是特征構(gòu)建-特征提取-特征選擇(沒get到點誒)
選擇的特征是:用戶行為,用戶消費。用戶畫像(消費不能歸到行為里面嗎?)
為什么RFM模型:因為我們沒有太多的用戶行為數(shù)據(jù),能用的數(shù)據(jù)比較有限。但是有一定的成交數(shù)據(jù)。只要有成交數(shù)據(jù),就能進行RFM的分析。其次,模型的分層可解釋性強。其他很多算法模型、機器學習模型,往往通過聚類進行用戶的分層,對于業(yè)務(wù)來講,不是很好解釋。但RFM模型分成的用戶類別,是非常好理解的。
==說到底還是RFM模型需要的數(shù)據(jù)比較簡單,只要有成交數(shù)據(jù)就可以。另外就是RFM模型做的分類解釋性比較高,用機器學習等去做或許效果更好,但是業(yè)務(wù)上不好解釋。
參考答案
RFM模型根據(jù)客戶活躍程度和交易金額的貢獻,進行客戶價值細分的 一種方法。它能夠識別優(yōu)質(zhì)客戶;可以制定個性化的溝通和營銷服務(wù),為更多的營銷決策提供有力支持;能夠衡量客戶價值和客戶利潤創(chuàng)收能力。
R(Recency)——最近一次交易時間間隔。
F(Frequency)——客戶在最近一段時間內(nèi)交易次數(shù)。
M(Monetray)——客戶最近一段時間內(nèi)交易金額。
9.xgb原理(猿輔導)
參考答案
xgboost就是一堆CART樹的集合,將每棵樹的預測值加在一起得到最后的預測值。xgboost利用了損失函數(shù)二階的導數(shù)信息,并且在目標函數(shù)之外加入了正則項,避免過擬合。
==介紹的多少有些隨意了,XGB算法是集成學習中串行式的一種,利用優(yōu)化殘差的思想去集成,利用了損失函數(shù)二階的導數(shù)信息,并且加入了正則項
10.實習項目介紹,為什么用xgb(猿輔導)
參考答案
xgboosting在傳統(tǒng)boosting的基礎(chǔ)上,利用cpu的多線程,引入正則化項,控制了模型的復雜度。并且xgb可并行處理,并能對缺失值處理,還內(nèi)置交叉驗證。
==讓串聯(lián)的模型實現(xiàn)多線程計算,減少了運算時間(4.16
答案解析
xgboost的優(yōu)點
27.?分析的y,也就是因變量是什么(ATL)
參考答案:
因變量是因為自變量的變化而產(chǎn)生的現(xiàn)象變化或結(jié)果,也叫函數(shù)值。
28.?假如在天貓上有兩款商品,如何分析它們的優(yōu)勢、劣勢以及它們之間的差異,并根據(jù)結(jié)果給出相應(yīng)的建議,思考5分鐘再回答(三諾生物)
參考答案:
可以從價格、銷量、評價和商品介紹四個方面對比兩款商品的優(yōu)劣勢和差異。可以按照自己的偏好設(shè)置權(quán)重,將價格、銷量、評價和商品介紹量化打分后進行加權(quán),得到最后的得分幫助自己選擇。
==怎么感覺這題答得不太對呢
29.?講述一個在實習中遇到的異動指標分析的實例(字節(jié)跳動)
參考答案:
我先簡單介紹一下背景:是在xxx過程中我們發(fā)現(xiàn)xxx指標出現(xiàn)異常,于是我們需要找到問題原因。隨后我們從xx和xx維度進行拆解,發(fā)現(xiàn)xx維度出現(xiàn)了異常。在我們與產(chǎn)品/技術(shù)團隊溝通后發(fā)現(xiàn)是由于xx原因造成的xx指標異常。最后我們想到可以用xxx方法解決這個異常,并推動運營/產(chǎn)品/技術(shù)對這一策略進行落地。
答案解析:
項目背景+具體問題+分析過程+分析結(jié)論+策略落地
30.?情景是直播打賞,給主播刷禮物。平臺希望通過刺激不付費的用戶消費(提升付費率),來提升直播收入,所以現(xiàn)在上線了單價較低的打賞禮物。打個比方,原來最低價格的禮物是10抖幣,現(xiàn)在新增的禮物只需要付2抖幣。但發(fā)現(xiàn)直播的收益并沒有明顯提升,該如何分析?(字節(jié)跳動)
參考答案:
首先,我們需要對用戶進行分層,可以分為上線較低打賞禮物前不付費用戶和付費用戶,再細分的話可以把付費用戶按照付費金額劃分區(qū)間。統(tǒng)計出各用戶群的消費變動。若未付費用戶轉(zhuǎn)變?yōu)楦顿M用戶,則說明策略有效。
==關(guān)鍵在于用戶分層,目標就是讓不消費的用戶去消費,那看下轉(zhuǎn)化率就可以了
答案解析:
考察能夠想到用戶分層。
31.?平時分析中對接的人員(滴滴)
參考答案:
產(chǎn)品/運營人員:對接產(chǎn)品/運營的數(shù)據(jù)需求并搭建數(shù)據(jù)看板。
分析人員:進行專題分析和異常分析,并推動策略落地。
技術(shù)人員:數(shù)據(jù)平臺出現(xiàn)bug以及看板報錯情況,需和技術(shù)人員進行溝通。
==所以良好的溝通能力還是要有的,產(chǎn)品運營是爸爸,要聽他們指揮,分析人員是兄弟,一起商討異常問題,不過話說回來,分析人員不就是我們自己嗎?然后技術(shù)就是兒子,告訴它們哪哪有問題。(4.16
32.?夏天北京網(wǎng)約車呼叫量增加,分析原因(滴滴)
參考答案:
對北京路段網(wǎng)約車始發(fā)地進行劃分,例如分為xx商圈,xx機場等,查看是否存在哪些路段網(wǎng)約車車輛突增的趨勢。隨后對該路段情況進行分析,是否存在氣候、工作等原因。針對這些原因,我們可以做出相應(yīng)的策略來提高我們?nèi)粘>W(wǎng)約車的數(shù)量。
==這種問題首先都得做做分層??纯词悄男┑攸c呼叫了增加,看看是不是有其他外部問題
==原因可太多了,這不得分分范圍嗎?(4.16
33.?現(xiàn)在的工作中涉及到分析的具體工作有哪些?(京東)
參考答案:
專題分析:對業(yè)務(wù)出現(xiàn)的異常情況進行專題分析,定位問題找出原因,并制訂解決策略,推進落地;
臨時分析需求:對小數(shù)據(jù)需求進行分析(指標監(jiān)控),例如用戶點贊行為分析;
報表分析:制作實時更新的可視化報表,實時定位異常情況。
==原來分析也有不同分類,業(yè)務(wù)異常分析就是專題分析;小數(shù)據(jù)需求就是臨時分析;制作報表就是報表分析(4.16
答案解析:
分2-3各層面,并列舉實習中的工作實例。
34.?除了指標的監(jiān)控之外,會有分析相關(guān)的工作嗎?(京東)
參考答案:
專題分析:我獨立負責過xxx的專題分析,背景是我們發(fā)現(xiàn)xxx現(xiàn)象(可以是指標異常也可以是其他現(xiàn)象),隨后我們通過xx和xx層面分析了xx指標,發(fā)現(xiàn)了xx現(xiàn)象,于是我們想了xxx策略,并與運營和技術(shù)溝通,推進策略落地,策略落地后,我們觀測xx指標,發(fā)現(xiàn)xx指標的xx變動,表明我們的策略是正向的。
答案解析:
可以說一下自己做的專題分析,從背景介紹+分析思路+策略推進+落地效果來介紹。
35.?舉一個具體的例子,在工作中分析了什么問題,對公司有哪些影響和風險,你是怎么給出方案去改善去落地的?(京東)
參考答案:
(項目背景)在xx實習的時候,我們?nèi)可暇€了一個短視頻流的功能,但是全量上線后的數(shù)據(jù)表現(xiàn)沒有達到預期,所以我們做了關(guān)于這個短視頻流稿件的分析。
(分析過程)我們分別從近一周被消費的短視頻情況、高粉博主發(fā)布的視頻消費情況以及消費情況好的視頻的詳情分析。
(分析結(jié)論)結(jié)果發(fā)現(xiàn)雖然我們有好的視頻但是好的視頻并沒有得到好的消費。
(策略落地)所以我們?nèi)ヅc運營團隊溝通分析什么是符合我們app特色的視頻,并與算法團隊溝通推薦策略。
(落地影響)在我們推進后一周,xx數(shù)據(jù)和xx數(shù)據(jù)得到了顯著的提高。
36.?你現(xiàn)在獨立做分析報告嗎?多久做一次?(京東)
參考答案:
之前有嘗試過做xx項目的分析報告,我是從xxx方面進行分析,后和我的mentor討論發(fā)現(xiàn)還可以從xxx方面進行分析,隨后我們得出了xxx結(jié)論,想出來xx策略。大約一個月兩次的樣子,沒有固定的時間,是業(yè)務(wù)出現(xiàn)問題或者我們在日常分析中發(fā)現(xiàn)問題后才回去做分析報告。
答案解析:
不止是回答有分析報告,最好介紹之前準備的分析項目報告,引導面試官接下來的問題。
37.?假設(shè)給一個數(shù)據(jù)集,我會選擇的分析步驟是什么樣的?(快手)
參考答案:
數(shù)據(jù)清洗(刪除重復項、填充缺失值和刪除異常值等)--思考需要分析的問題,得到分析思路--指標整合--可視化
==首先是對數(shù)據(jù)進行清理,然后再根據(jù)問題來確定指標,再可視化
38.?就快手而言,要如何分析在沒有營銷手段拉動的情況下,什么樣的作者/作品類型/作品內(nèi)容自然增長是具有快速增長增量的(快手)
參考答案:
首先,制訂指標體系(七天內(nèi)漲粉量、播轉(zhuǎn)粉率、點贊率等)識別出快速增長的作者/作品。將這些作者的明細分為消費和供給兩方面進行分析。消費包括這些作者的稿件的點贊情況、點贊率情況等指標;供給包括投稿頻次,稿件屬于哪一類型等。通過這些數(shù)據(jù)來看是否具有一定的共性規(guī)律性。
==想要找到這類人,先指定好區(qū)分指標,哪些指標能代表這群人。(4.16
39.?所以你擅長的內(nèi)容實際上是在現(xiàn)成數(shù)據(jù)集上做挖掘分析對嗎?(快手)
參考答案:
不是,我熟練掌握python對數(shù)據(jù)集清洗,以及sql從數(shù)據(jù)庫中取出數(shù)據(jù)。對于其他網(wǎng)絡(luò)數(shù)據(jù),我也會使用python爬蟲從網(wǎng)站上爬取數(shù)據(jù)。
==我會自己用sql從數(shù)據(jù)庫中提取,也會爬蟲
40.?實習中如何分析用戶流失路徑(字節(jié)跳動)
參考答案:
做埋點。用戶的流失率的分析需要統(tǒng)計次日留存,三日留存,七日留存和一月留存,我們的流程是:
1、畫出用戶地圖,每一步埋點,最后通過對數(shù)據(jù)的分析判斷每一個步驟上的流失率,
2、優(yōu)化具體的操作步驟,看題主描述的引導頁應(yīng)該是注冊——選擇喜歡音樂類型——選擇喜愛歌手——APP首頁,至于進入后的其他環(huán)節(jié)不太清楚,要對產(chǎn)品核心功埋點,分析每一個核心功能每一個步驟,分析用戶在哪一步流失,這些數(shù)據(jù)的收集和分析有助于優(yōu)化該功能,提高用戶留存。
41.?工作中做過什么專題分析(字節(jié)跳動)
參考答案:
介紹專題分析的背景(為什么要做這個專題)-->分析思路(從什么方面進行分析,分析了哪些指標)-->分析結(jié)論(發(fā)現(xiàn)了什么現(xiàn)象,找出了什么原因)-->策略落地(針對這些現(xiàn)象實施什么策略,與哪些部門進行溝通)-->落地效果
42.?我們假設(shè),飛書現(xiàn)在視頻會議功能用戶量驟減,你會怎么分析(字節(jié)跳動)
參考答案:
首先,驗證數(shù)據(jù)的準確性,不是由于底層數(shù)據(jù)庫或數(shù)據(jù)口徑出現(xiàn)問題而出現(xiàn)的驟降。
隨后,將用戶進行分層,可以從地區(qū)、時段、行業(yè)等維度進行劃分,看哪部分的用戶顯著下降。
最后從內(nèi)部和外部進行原因分析,內(nèi)部從產(chǎn)品、運營、技術(shù)層面找原因,外部從競品找原因。
43.?那要是你作為一個內(nèi)部人員的話,怎么分析這些數(shù)據(jù)呢(字節(jié)跳動)
參考答案:
首先,我會先從產(chǎn)品現(xiàn)狀發(fā)現(xiàn)問題,針對問題進行分析。
隨后,我會對問題進行拆解,再構(gòu)建數(shù)據(jù)指標體系。
最后我會對用戶進行分層,對各個層級的用戶統(tǒng)計數(shù)據(jù)指標體系,看各層級用戶是否有明顯區(qū)別,能夠解釋問題。
44.?說一個你在實習中做異動指標分析的例子(滴滴)
參考答案:
在某視頻直播平臺實習時,我做過優(yōu)質(zhì)傳輸率異常值分析。這里的優(yōu)質(zhì)傳輸率指的是a和b在視頻通話過程中的丟包情況,優(yōu)質(zhì)傳輸率一般在95%以上,但是當時突然下降到了85%。對此,我們將數(shù)據(jù)按照省份、傳輸機房、運營商等維度進行拆解,看各個維度的優(yōu)質(zhì)傳輸率情況。我們發(fā)現(xiàn)有兩個省份的優(yōu)質(zhì)傳輸率很低,并且后來發(fā)現(xiàn)是機房原因,我們把該省份的傳輸端口手動接入附近省份,次日優(yōu)質(zhì)傳輸率恢復。
45.?如果最近DUA有較大抖動,你怎么去找核心原因?可以添加什么因素在這個分析模型中?(字節(jié)跳動)
參考答案:
首先確定是否是底層表或統(tǒng)計口徑的問題造成的較大抖動。隨后對用戶進行分層,分層的維度可以有新老用戶、各年齡段用戶等,找到是哪部分用戶的DAU下滑明顯。隨后從產(chǎn)品內(nèi)部和外部進行分析,內(nèi)部可以從產(chǎn)品、運營和技術(shù)上找原因,外部可以從政治經(jīng)濟和競品分析找原因。
==某些指標出現(xiàn)了較大的波動,得先看看是不是底層數(shù)據(jù)庫或者是數(shù)據(jù)口徑出現(xiàn)按的問題。然后對用戶分層來分析。
46.?你剛才提到了版本你會用什么方法分析。(新版本上線分析)(字節(jié)跳動)
參考答案:
我主要從以下幾個方面寫的分析報告:
1.基于什么樣的背景(在什么樣背景下版本更新了)。
2.為了達成怎樣的目的(版本更新針對什么問題,針對哪些人群)。
3.做了怎樣的功能(新功能/改動功能有哪些)。
4.監(jiān)控了哪些指標項。
5.各指標得到的結(jié)論。
6.總結(jié)這次版本更新的表現(xiàn)。