學習筆記53 數(shù)據(jù)分析常見面試題4-15

2.adaboost和xgboost的區(qū)別;xgboost的并行體現(xiàn)在哪(工程上的并行,不是計算上的并行)(猿輔導

參考答案

Adaboost與GBDT兩者boosting的不同策略是兩者的本質(zhì)區(qū)別。

Adaboost強調(diào)Adaptive(自適應(yīng)),通過不斷修改樣本權(quán)重(增大分錯樣本權(quán)重,降低分對樣本權(quán)重),不斷加入弱分類器進行boosting。

Xgboost則是旨在不斷減少殘差(回歸),可以人為定義損失函數(shù)(可以是最小平方差、logistic

loss function、hinge loss function或者人為定義的loss function),只需要知道該loss function對參數(shù)的一階、二階導數(shù)便可以進行boosting,其進一步增大了模型的泛華能力

==兩者本質(zhì)區(qū)別還是boosting的策略。adaboost強調(diào)的是對分錯樣本的權(quán)重增加,不斷加入弱學習器。XGboost則是在于減少殘差

==adaboost還是比較傳統(tǒng)的那種boosting,方向是增加分錯的權(quán)重;而GBDT就是比較特殊的,它的方向是降低殘差。(4.16

3.K-means、K-means?算法的優(yōu)缺點(bigo、字節(jié)跳動、京東、廣聯(lián)達

參考答案

優(yōu)點:當潛在的簇形狀是凸面,簇與簇之間較明顯,且簇大小相近時,結(jié)果較理想。對于處理大數(shù)據(jù),該算法高效且伸縮性較好。

缺點:要事先確定k;對于初始簇中心敏感,常以局部最優(yōu)結(jié)束,對孤立點敏感,不適于發(fā)現(xiàn)非凸的簇或大小差別大的簇。

==kmeans這么多公司考嗎?這不就是一個簡單的聚類嗎?不過優(yōu)缺點還真不好說。(4.16

4.KNN、K-Means區(qū)別(京東

參考答案

KNN是分類算法,它是監(jiān)督學習,知道了結(jié)果去效驗結(jié)果是否正確。 K-Means是聚類算法,它是非監(jiān)督學習,它需要先自己算去一個結(jié)果。

答案解析

考察分類算法和聚類算法的區(qū)別

5.介紹一下k-means,你的數(shù)據(jù)如何處理,模型的輸出是什么?(浦發(fā)銀行

參考答案

介紹kmeans:

第一步:數(shù)據(jù)歸一化、離群點處理后,隨機選擇k個聚類質(zhì)心

第二步:所有數(shù)據(jù)點關(guān)聯(lián)劃分到離自己最近的質(zhì)心,形成k個簇;

第三步:重新計算每個簇的質(zhì)心;

重復第二步、第三步,直到簇不發(fā)生變化或達到最大迭代次數(shù);

==介紹一下算法步驟,首先對數(shù)據(jù)進行歸一化,處理離群點,然后選擇K個聚類中心;將所有的點分到相對最近的聚類中心,這樣就形成了K個簇;然后對每個簇重新計算聚類中心

數(shù)據(jù)如何處理:

為了防止均值和方差大的維度將對數(shù)據(jù)的聚類產(chǎn)生決定性影響,所以在聚類前我們對數(shù)據(jù)進行了歸一化處理。

==主要就是歸一化

模型輸出:

n個維度,輸出為?的向量。[0 1 1 0 1],就是把第1,4維分為一類,其他分為另一類。

答案解析

kmeans聚類的過程和步驟。

機器學習與數(shù)據(jù)挖掘-2

6.實習內(nèi)容中:RFM模型和kmeans(猿輔導

參考答案

RFM模型根據(jù)客戶活躍程度和交易金額的貢獻,進行客戶價值細分的 一種方法。它能夠識別優(yōu)質(zhì)客戶;可以制定個性化的溝通和營銷服務(wù),為更多的營銷決策提供有力支持;能夠衡量客戶價值和客戶利潤創(chuàng)收能力。

R(Recency)——最近一次交易時間間隔。

F(Frequency)——客戶在最近一段時間內(nèi)交易次數(shù)。

M(Monetray)——客戶最近一段時間內(nèi)交易金額。

==RFM與隨機森林無關(guān)哈,準確的說,是根據(jù)客戶活躍程度和交易金額的貢獻,來對客戶價值進行細分的一種方法。用來給決策提高更加有力的支持。

三個字母的意思如上,就是交易時間,交易次數(shù)和交易金額

Kmeans算法

第一步:數(shù)據(jù)歸一化、離群點處理后,隨機選擇k個聚類質(zhì)心

第二步:所有數(shù)據(jù)點關(guān)聯(lián)劃分到離自己最近的質(zhì)心,形成k個簇;

第三步:重新計算每個簇的質(zhì)心;

重復第二步、第三步,直到簇不發(fā)生變化或達到最大迭代次數(shù)。

7.特征工程怎么做的,選擇了哪些特征作為預測變量?為什么用RFM模型來構(gòu)建特征變量?(字節(jié)跳動

參考答案

特征工程包括:特征構(gòu)建->特征提取->特征選擇。

選擇特征:用戶行為特征、用戶消費特征、用戶畫像特征

==特征工程是特征構(gòu)建-特征提取-特征選擇(沒get到點誒)

選擇的特征是:用戶行為,用戶消費。用戶畫像(消費不能歸到行為里面嗎?)

為什么RFM模型:因為我們沒有太多的用戶行為數(shù)據(jù),能用的數(shù)據(jù)比較有限。但是有一定的成交數(shù)據(jù)。只要有成交數(shù)據(jù),就能進行RFM的分析。其次,模型的分層可解釋性強。其他很多算法模型、機器學習模型,往往通過聚類進行用戶的分層,對于業(yè)務(wù)來講,不是很好解釋。但RFM模型分成的用戶類別,是非常好理解的。

==說到底還是RFM模型需要的數(shù)據(jù)比較簡單,只要有成交數(shù)據(jù)就可以。另外就是RFM模型做的分類解釋性比較高,用機器學習等去做或許效果更好,但是業(yè)務(wù)上不好解釋。

8.rfm模型介紹一下?(京東、作業(yè)幫

參考答案

RFM模型根據(jù)客戶活躍程度和交易金額的貢獻,進行客戶價值細分的 一種方法。它能夠識別優(yōu)質(zhì)客戶;可以制定個性化的溝通和營銷服務(wù),為更多的營銷決策提供有力支持;能夠衡量客戶價值和客戶利潤創(chuàng)收能力。

R(Recency)——最近一次交易時間間隔。

F(Frequency)——客戶在最近一段時間內(nèi)交易次數(shù)。

M(Monetray)——客戶最近一段時間內(nèi)交易金額。

9.xgb原理(猿輔導

參考答案

xgboost就是一堆CART樹的集合,將每棵樹的預測值加在一起得到最后的預測值。xgboost利用了損失函數(shù)二階的導數(shù)信息,并且在目標函數(shù)之外加入了正則項,避免過擬合。

==介紹的多少有些隨意了,XGB算法是集成學習中串行式的一種,利用優(yōu)化殘差的思想去集成,利用了損失函數(shù)二階的導數(shù)信息,并且加入了正則項

10.實習項目介紹,為什么用xgb(猿輔導

參考答案

xgboosting在傳統(tǒng)boosting的基礎(chǔ)上,利用cpu的多線程,引入正則化項,控制了模型的復雜度。并且xgb可并行處理,并能對缺失值處理,還內(nèi)置交叉驗證。

==讓串聯(lián)的模型實現(xiàn)多線程計算,減少了運算時間(4.16

答案解析

xgboost的優(yōu)點

27.?分析的y,也就是因變量是什么(ATL)

參考答案:

因變量是因為自變量的變化而產(chǎn)生的現(xiàn)象變化或結(jié)果,也叫函數(shù)值。

28.?假如在天貓上有兩款商品,如何分析它們的優(yōu)勢、劣勢以及它們之間的差異,并根據(jù)結(jié)果給出相應(yīng)的建議,思考5分鐘再回答(三諾生物)

參考答案:

可以從價格、銷量、評價和商品介紹四個方面對比兩款商品的優(yōu)劣勢和差異。可以按照自己的偏好設(shè)置權(quán)重,將價格、銷量、評價和商品介紹量化打分后進行加權(quán),得到最后的得分幫助自己選擇。

==怎么感覺這題答得不太對呢

29.?講述一個在實習中遇到的異動指標分析的實例(字節(jié)跳動

參考答案:

我先簡單介紹一下背景:是在xxx過程中我們發(fā)現(xiàn)xxx指標出現(xiàn)異常,于是我們需要找到問題原因。隨后我們從xx和xx維度進行拆解,發(fā)現(xiàn)xx維度出現(xiàn)了異常。在我們與產(chǎn)品/技術(shù)團隊溝通后發(fā)現(xiàn)是由于xx原因造成的xx指標異常。最后我們想到可以用xxx方法解決這個異常,并推動運營/產(chǎn)品/技術(shù)對這一策略進行落地。

答案解析:

項目背景+具體問題+分析過程+分析結(jié)論+策略落地

30.?情景是直播打賞,給主播刷禮物。平臺希望通過刺激不付費的用戶消費(提升付費率),來提升直播收入,所以現(xiàn)在上線了單價較低的打賞禮物。打個比方,原來最低價格的禮物是10抖幣,現(xiàn)在新增的禮物只需要付2抖幣。但發(fā)現(xiàn)直播的收益并沒有明顯提升,該如何分析?(字節(jié)跳動

參考答案:

首先,我們需要對用戶進行分層,可以分為上線較低打賞禮物前不付費用戶和付費用戶,再細分的話可以把付費用戶按照付費金額劃分區(qū)間。統(tǒng)計出各用戶群的消費變動。若未付費用戶轉(zhuǎn)變?yōu)楦顿M用戶,則說明策略有效。

==關(guān)鍵在于用戶分層,目標就是讓不消費的用戶去消費,那看下轉(zhuǎn)化率就可以了

答案解析:

考察能夠想到用戶分層。

31.?平時分析中對接的人員(滴滴

參考答案:

產(chǎn)品/運營人員:對接產(chǎn)品/運營的數(shù)據(jù)需求并搭建數(shù)據(jù)看板。

分析人員:進行專題分析和異常分析,并推動策略落地。

技術(shù)人員:數(shù)據(jù)平臺出現(xiàn)bug以及看板報錯情況,需和技術(shù)人員進行溝通。

==所以良好的溝通能力還是要有的,產(chǎn)品運營是爸爸,要聽他們指揮,分析人員是兄弟,一起商討異常問題,不過話說回來,分析人員不就是我們自己嗎?然后技術(shù)就是兒子,告訴它們哪哪有問題。(4.16

32.?夏天北京網(wǎng)約車呼叫量增加,分析原因(滴滴

參考答案:

對北京路段網(wǎng)約車始發(fā)地進行劃分,例如分為xx商圈,xx機場等,查看是否存在哪些路段網(wǎng)約車車輛突增的趨勢。隨后對該路段情況進行分析,是否存在氣候、工作等原因。針對這些原因,我們可以做出相應(yīng)的策略來提高我們?nèi)粘>W(wǎng)約車的數(shù)量。

==這種問題首先都得做做分層??纯词悄男┑攸c呼叫了增加,看看是不是有其他外部問題

==原因可太多了,這不得分分范圍嗎?(4.16

33.?現(xiàn)在的工作中涉及到分析的具體工作有哪些?(京東

參考答案:

專題分析:對業(yè)務(wù)出現(xiàn)的異常情況進行專題分析,定位問題找出原因,并制訂解決策略,推進落地;

臨時分析需求:對小數(shù)據(jù)需求進行分析(指標監(jiān)控),例如用戶點贊行為分析;

報表分析:制作實時更新的可視化報表,實時定位異常情況。

==原來分析也有不同分類,業(yè)務(wù)異常分析就是專題分析;小數(shù)據(jù)需求就是臨時分析;制作報表就是報表分析(4.16

答案解析:

分2-3各層面,并列舉實習中的工作實例。

34.?除了指標的監(jiān)控之外,會有分析相關(guān)的工作嗎?(京東

參考答案:

專題分析:我獨立負責過xxx的專題分析,背景是我們發(fā)現(xiàn)xxx現(xiàn)象(可以是指標異常也可以是其他現(xiàn)象),隨后我們通過xx和xx層面分析了xx指標,發(fā)現(xiàn)了xx現(xiàn)象,于是我們想了xxx策略,并與運營和技術(shù)溝通,推進策略落地,策略落地后,我們觀測xx指標,發(fā)現(xiàn)xx指標的xx變動,表明我們的策略是正向的。

答案解析:

可以說一下自己做的專題分析,從背景介紹+分析思路+策略推進+落地效果來介紹。

35.?舉一個具體的例子,在工作中分析了什么問題,對公司有哪些影響和風險,你是怎么給出方案去改善去落地的?(京東

參考答案:

(項目背景)在xx實習的時候,我們?nèi)可暇€了一個短視頻流的功能,但是全量上線后的數(shù)據(jù)表現(xiàn)沒有達到預期,所以我們做了關(guān)于這個短視頻流稿件的分析。

(分析過程)我們分別從近一周被消費的短視頻情況、高粉博主發(fā)布的視頻消費情況以及消費情況好的視頻的詳情分析。

(分析結(jié)論)結(jié)果發(fā)現(xiàn)雖然我們有好的視頻但是好的視頻并沒有得到好的消費。

(策略落地)所以我們?nèi)ヅc運營團隊溝通分析什么是符合我們app特色的視頻,并與算法團隊溝通推薦策略。

(落地影響)在我們推進后一周,xx數(shù)據(jù)和xx數(shù)據(jù)得到了顯著的提高。

36.?你現(xiàn)在獨立做分析報告嗎?多久做一次?(京東

參考答案:

之前有嘗試過做xx項目的分析報告,我是從xxx方面進行分析,后和我的mentor討論發(fā)現(xiàn)還可以從xxx方面進行分析,隨后我們得出了xxx結(jié)論,想出來xx策略。大約一個月兩次的樣子,沒有固定的時間,是業(yè)務(wù)出現(xiàn)問題或者我們在日常分析中發(fā)現(xiàn)問題后才回去做分析報告。

答案解析:

不止是回答有分析報告,最好介紹之前準備的分析項目報告,引導面試官接下來的問題。

37.?假設(shè)給一個數(shù)據(jù)集,我會選擇的分析步驟是什么樣的?(快手

參考答案:

數(shù)據(jù)清洗(刪除重復項、填充缺失值和刪除異常值等)--思考需要分析的問題,得到分析思路--指標整合--可視化

==首先是對數(shù)據(jù)進行清理,然后再根據(jù)問題來確定指標,再可視化

38.?快手而言,要如何分析在沒有營銷手段拉動的情況下,什么樣的作者/作品類型/作品內(nèi)容自然增長是具有快速增長增量的(快手

參考答案:

首先,制訂指標體系(七天內(nèi)漲粉量、播轉(zhuǎn)粉率、點贊率等)識別出快速增長的作者/作品。將這些作者的明細分為消費和供給兩方面進行分析。消費包括這些作者的稿件的點贊情況、點贊率情況等指標;供給包括投稿頻次,稿件屬于哪一類型等。通過這些數(shù)據(jù)來看是否具有一定的共性規(guī)律性。

==想要找到這類人,先指定好區(qū)分指標,哪些指標能代表這群人。(4.16

39.?所以你擅長的內(nèi)容實際上是在現(xiàn)成數(shù)據(jù)集上做挖掘分析對嗎?(快手

參考答案:

不是,我熟練掌握python對數(shù)據(jù)集清洗,以及sql從數(shù)據(jù)庫中取出數(shù)據(jù)。對于其他網(wǎng)絡(luò)數(shù)據(jù),我也會使用python爬蟲從網(wǎng)站上爬取數(shù)據(jù)。

==我會自己用sql從數(shù)據(jù)庫中提取,也會爬蟲

40.?實習中如何分析用戶流失路徑(字節(jié)跳動

參考答案:

做埋點。用戶的流失率的分析需要統(tǒng)計次日留存,三日留存,七日留存和一月留存,我們的流程是:

1、畫出用戶地圖,每一步埋點,最后通過對數(shù)據(jù)的分析判斷每一個步驟上的流失率,

2、優(yōu)化具體的操作步驟,看題主描述的引導頁應(yīng)該是注冊——選擇喜歡音樂類型——選擇喜愛歌手——APP首頁,至于進入后的其他環(huán)節(jié)不太清楚,要對產(chǎn)品核心功埋點,分析每一個核心功能每一個步驟,分析用戶在哪一步流失,這些數(shù)據(jù)的收集和分析有助于優(yōu)化該功能,提高用戶留存。

41.?工作中做過什么專題分析(字節(jié)跳動

參考答案:

介紹專題分析的背景(為什么要做這個專題)-->分析思路(從什么方面進行分析,分析了哪些指標)-->分析結(jié)論(發(fā)現(xiàn)了什么現(xiàn)象,找出了什么原因)-->策略落地(針對這些現(xiàn)象實施什么策略,與哪些部門進行溝通)-->落地效果

42.?我們假設(shè),飛書現(xiàn)在視頻會議功能用戶量驟減,你會怎么分析(字節(jié)跳動

參考答案:

首先,驗證數(shù)據(jù)的準確性,不是由于底層數(shù)據(jù)庫或數(shù)據(jù)口徑出現(xiàn)問題而出現(xiàn)的驟降。

隨后,將用戶進行分層,可以從地區(qū)、時段、行業(yè)等維度進行劃分,看哪部分的用戶顯著下降。

最后從內(nèi)部和外部進行原因分析,內(nèi)部從產(chǎn)品、運營、技術(shù)層面找原因,外部從競品找原因。

43.?那要是你作為一個內(nèi)部人員的話,怎么分析這些數(shù)據(jù)呢(字節(jié)跳動

參考答案:

首先,我會先從產(chǎn)品現(xiàn)狀發(fā)現(xiàn)問題,針對問題進行分析。

隨后,我會對問題進行拆解,再構(gòu)建數(shù)據(jù)指標體系。

最后我會對用戶進行分層,對各個層級的用戶統(tǒng)計數(shù)據(jù)指標體系,看各層級用戶是否有明顯區(qū)別,能夠解釋問題。

44.?說一個你在實習中做異動指標分析的例子(滴滴

參考答案:

在某視頻直播平臺實習時,我做過優(yōu)質(zhì)傳輸率異常值分析。這里的優(yōu)質(zhì)傳輸率指的是a和b在視頻通話過程中的丟包情況,優(yōu)質(zhì)傳輸率一般在95%以上,但是當時突然下降到了85%。對此,我們將數(shù)據(jù)按照省份、傳輸機房、運營商等維度進行拆解,看各個維度的優(yōu)質(zhì)傳輸率情況。我們發(fā)現(xiàn)有兩個省份的優(yōu)質(zhì)傳輸率很低,并且后來發(fā)現(xiàn)是機房原因,我們把該省份的傳輸端口手動接入附近省份,次日優(yōu)質(zhì)傳輸率恢復。

45.?如果最近DUA有較大抖動,你怎么去找核心原因?可以添加什么因素在這個分析模型中?(字節(jié)跳動

參考答案:

首先確定是否是底層表或統(tǒng)計口徑的問題造成的較大抖動。隨后對用戶進行分層,分層的維度可以有新老用戶、各年齡段用戶等,找到是哪部分用戶的DAU下滑明顯。隨后從產(chǎn)品內(nèi)部和外部進行分析,內(nèi)部可以從產(chǎn)品、運營和技術(shù)上找原因,外部可以從政治經(jīng)濟和競品分析找原因。

==某些指標出現(xiàn)了較大的波動,得先看看是不是底層數(shù)據(jù)庫或者是數(shù)據(jù)口徑出現(xiàn)按的問題。然后對用戶分層來分析。

46.?你剛才提到了版本你會用什么方法分析。(新版本上線分析)(字節(jié)跳動

參考答案:

我主要從以下幾個方面寫的分析報告:

1.基于什么樣的背景(在什么樣背景下版本更新了)。

2.為了達成怎樣的目的(版本更新針對什么問題,針對哪些人群)。

3.做了怎樣的功能(新功能/改動功能有哪些)。

4.監(jiān)控了哪些指標項。

5.各指標得到的結(jié)論。

6.總結(jié)這次版本更新的表現(xiàn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容