【數(shù)分面試寶典】數(shù)分面試??紭I(yè)務(wù)題(三)

Q1、什么是EDA(Exploratory Data Analysis)?

EDA(Exploratory Data Analysis)即數(shù)據(jù)探索性分析,需要對數(shù)據(jù)集中的變量進(jìn)行統(tǒng)計(jì)和分布描述、了解變量間的相互關(guān)系,從整體上了解數(shù)據(jù)集的數(shù)據(jù)特征。探索性分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析、分布以及一些基本的統(tǒng)計(jì)圖形。

①數(shù)據(jù)的頻數(shù)分析。在數(shù)據(jù)的預(yù)處理部分,利用頻數(shù)分析和交叉頻數(shù)分析可以檢驗(yàn)異常值

②數(shù)據(jù)的集中趨勢分析。用來反映數(shù)據(jù)的一般水平,常用的指標(biāo)有平均值、中位數(shù)和眾數(shù)等。

③數(shù)據(jù)的離散程度分析。主要是用來反映數(shù)據(jù)之間的差異程度,常用的指標(biāo)有方差和標(biāo)準(zhǔn)差。

④數(shù)據(jù)的分布。在統(tǒng)計(jì)分析中,通常要假設(shè)樣本所屬總體的分布屬于正態(tài)分布,因此需要用偏度和峰度兩個(gè)指標(biāo)來檢查樣本數(shù)據(jù)是否符合正態(tài)分布。

⑤數(shù)據(jù)的相關(guān)性分析。探索不同變量之間的相關(guān)性,可以使用相關(guān)性圖進(jìn)行展示,表示各變量之間的相關(guān)程度,為后續(xù)機(jī)器學(xué)習(xí)的特征選擇提供依據(jù)。

Q2、什么是同比、環(huán)比,意義是什么?

環(huán)比:與相連續(xù)的上一個(gè)統(tǒng)計(jì)周期進(jìn)行對比,環(huán)比增長速度=(本期數(shù)-上期數(shù))÷上期數(shù)×100% ,反映本期比上期增長了多少,如2021年12月和2021年11月對比,環(huán)比的好處是可以更直觀的表明階段性的變換,但是會(huì)受季節(jié)性因素影響。

同比:是對去年同期的一個(gè)統(tǒng)計(jì)階段進(jìn)行對比,同比增長率=(本期數(shù)-同期數(shù))÷同期數(shù)×100%,如今年的這個(gè)月和去年的這個(gè)月,同比的好處是可以排除一部分季節(jié)因素。

Q3、什么是相關(guān)性分析?相關(guān)和因果的區(qū)別是什么?

相關(guān)性的前提是各個(gè)變量之間是相互獨(dú)立的,業(yè)務(wù)上來說,每個(gè)指標(biāo)之間是沒有影響的,相關(guān)性系數(shù):0.5以下相關(guān)性較弱,0.5 -0.8中度相關(guān),大于0.8較強(qiáng)相關(guān)。

如果A和B相關(guān),會(huì)有以下幾個(gè)推論:

A導(dǎo)致B:充分條件

B導(dǎo)致A:必要條件

C導(dǎo)致A和B:A和B同源

A和B如果有因果:充分且必要條件

相關(guān)和因果的區(qū)別:

相關(guān):兩個(gè)變量或多個(gè)變量之間的相互影響程度;核心點(diǎn):變量與變量之間互為相關(guān),沒有先后順序;

因果: 前一個(gè)事件對后一個(gè)事件的作用的關(guān)系及強(qiáng)度,核心點(diǎn):有嚴(yán)格的先后順序(變化可能會(huì)有延遲),如蝴蝶效應(yīng)。

好玩的題目:

Y=0.5X? y和x是相關(guān)還是因果?

y=0.5X+0.5z? y和x是相關(guān)還是因果?

答案:都是相關(guān)

因果的前提是:有一個(gè)東西是先發(fā)生,而相關(guān)是沒有先后順序的,所以上述2個(gè)都是相關(guān),而不是因果。

Q4、什么是聚類?業(yè)務(wù)應(yīng)用場景?常見算法?

定義:

將相似的對象,將對象的特征進(jìn)行抽象,通過算法將特征相似的對象化為一類,是一種無監(jiān)督機(jī)器學(xué)習(xí)算法。

考點(diǎn)1:對于聚類,如何確定分類的數(shù)量N;

考點(diǎn)2:如何選擇進(jìn)行聚類的特征,比如要區(qū)分男女,有喉結(jié)的就是男生,留長發(fā)的就是女生;

應(yīng)用場景:

個(gè)性化推薦(電商):相似用戶行為相似,會(huì)分到某個(gè)類,如用戶分層;

用戶畫像:基于用戶的購買偏好、消費(fèi)能力進(jìn)行用戶畫像;

常見算法:

Kmeans聚類

DBSCAN聚類

Q5、什么是分類?業(yè)務(wù)應(yīng)用場景?常見算法?

定義:

學(xué)習(xí)已有分類樣本的特征,對新數(shù)據(jù)進(jìn)行劃分,是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,分類是明確的,是有歷史樣本可學(xué)習(xí)的。

應(yīng)用場景:

互聯(lián)網(wǎng)金融用戶信用等級分類

垃圾郵件分類

常見算法:

邏輯回歸

SVM

貝葉斯

決策樹

KNN

XGboost

Q6、什么是回歸?業(yè)務(wù)應(yīng)用場景?常見回歸算法?

定義:

兩個(gè)或多個(gè)變量之間是否相關(guān),相關(guān)強(qiáng)度,并建立數(shù)學(xué)模型,定量評估

人話:我和你有沒有關(guān)系,什么關(guān)系,深到什么程度。

本質(zhì):找到一條之間最合適的平均線,讓線的附近的點(diǎn)分布均勻

應(yīng)用場景:

運(yùn)營推廣中,是不是花的錢越多,買的流量越大,品類越豐富,用戶活躍越高,那么,多到什么程度、大到什么程度、豐富到什么程度、用戶的活躍最高,留存最高;

智慧城市的交通,預(yù)測交通擁塞程度:自變量:時(shí)間段、商業(yè)指數(shù)、住宅指數(shù)、城區(qū)指數(shù)、道路指數(shù),因變量:兩個(gè)連續(xù)信號燈之間道路的通行時(shí)間。

常見回歸算法:

線性回歸

lasso回歸

ridge回歸

樹回歸

Q7、時(shí)間序列預(yù)測的原理是什么?有哪些應(yīng)用場景?

原理:

當(dāng)自變量是時(shí)間時(shí),且數(shù)據(jù)在時(shí)間上呈現(xiàn)出一定的規(guī)律,那么這種情況一般都可以使用時(shí)間序列預(yù)測接下來一段時(shí)間的數(shù)據(jù)走勢。這個(gè)規(guī)律表現(xiàn)為:數(shù)據(jù)整體變化的趨勢(可以理解為一條表征趨勢的直線)、季節(jié)性(可以理解為按照一定的周期重復(fù)出現(xiàn)的模式)和隨機(jī)性(可以理解為在零附近毫無規(guī)律的白噪聲)組成,時(shí)間序列就是將數(shù)據(jù)按照這三個(gè)部分分別拆解,再基于歷史數(shù)據(jù)進(jìn)行組合預(yù)測。

應(yīng)用場景:

一般應(yīng)用于年度的KPI預(yù)測,產(chǎn)品的活躍用戶數(shù)趨勢,羽絨服的銷量等。

Q8、時(shí)間序列預(yù)測需要注意的點(diǎn)?和回歸有何區(qū)別?

需要注意的點(diǎn):

時(shí)間間隔是固定的;

最近的數(shù)據(jù)對于預(yù)測影響程度越大;

預(yù)測是有季節(jié)性的,這里的季節(jié)性不一定是春夏秋冬,凡是以一定周期重復(fù)出現(xiàn)的都可以稱為有季節(jié)性;

回歸預(yù)測和時(shí)間序列預(yù)測的區(qū)別:

回歸是自變量對于因變量的趨勢,用以表征自變量和因變量之間的定量關(guān)系,一般來說自變量和因變量只能是連續(xù)的數(shù)據(jù);

時(shí)間序列預(yù)測的自變量可以是任何數(shù)據(jù),包括時(shí)間,只要數(shù)據(jù)呈現(xiàn)出周期性的趨勢;

回歸不能做季節(jié)性的預(yù)測;

以上就是【數(shù)分面試寶典】系列—面試業(yè)務(wù)題系列第3篇文章的內(nèi)容,部分歷史文章請回翻公眾號,更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中,敬請期待,如果覺得不錯(cuò),也歡迎分享、點(diǎn)贊和點(diǎn)在看哈

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容