Q1、什么是EDA(Exploratory Data Analysis)?
EDA(Exploratory Data Analysis)即數(shù)據(jù)探索性分析,需要對數(shù)據(jù)集中的變量進(jìn)行統(tǒng)計(jì)和分布描述、了解變量間的相互關(guān)系,從整體上了解數(shù)據(jù)集的數(shù)據(jù)特征。探索性分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析、分布以及一些基本的統(tǒng)計(jì)圖形。
①數(shù)據(jù)的頻數(shù)分析。在數(shù)據(jù)的預(yù)處理部分,利用頻數(shù)分析和交叉頻數(shù)分析可以檢驗(yàn)異常值
②數(shù)據(jù)的集中趨勢分析。用來反映數(shù)據(jù)的一般水平,常用的指標(biāo)有平均值、中位數(shù)和眾數(shù)等。
③數(shù)據(jù)的離散程度分析。主要是用來反映數(shù)據(jù)之間的差異程度,常用的指標(biāo)有方差和標(biāo)準(zhǔn)差。
④數(shù)據(jù)的分布。在統(tǒng)計(jì)分析中,通常要假設(shè)樣本所屬總體的分布屬于正態(tài)分布,因此需要用偏度和峰度兩個(gè)指標(biāo)來檢查樣本數(shù)據(jù)是否符合正態(tài)分布。
⑤數(shù)據(jù)的相關(guān)性分析。探索不同變量之間的相關(guān)性,可以使用相關(guān)性圖進(jìn)行展示,表示各變量之間的相關(guān)程度,為后續(xù)機(jī)器學(xué)習(xí)的特征選擇提供依據(jù)。
Q2、什么是同比、環(huán)比,意義是什么?
環(huán)比:與相連續(xù)的上一個(gè)統(tǒng)計(jì)周期進(jìn)行對比,環(huán)比增長速度=(本期數(shù)-上期數(shù))÷上期數(shù)×100% ,反映本期比上期增長了多少,如2021年12月和2021年11月對比,環(huán)比的好處是可以更直觀的表明階段性的變換,但是會(huì)受季節(jié)性因素影響。
同比:是對去年同期的一個(gè)統(tǒng)計(jì)階段進(jìn)行對比,同比增長率=(本期數(shù)-同期數(shù))÷同期數(shù)×100%,如今年的這個(gè)月和去年的這個(gè)月,同比的好處是可以排除一部分季節(jié)因素。
Q3、什么是相關(guān)性分析?相關(guān)和因果的區(qū)別是什么?
相關(guān)性的前提是各個(gè)變量之間是相互獨(dú)立的,業(yè)務(wù)上來說,每個(gè)指標(biāo)之間是沒有影響的,相關(guān)性系數(shù):0.5以下相關(guān)性較弱,0.5 -0.8中度相關(guān),大于0.8較強(qiáng)相關(guān)。
如果A和B相關(guān),會(huì)有以下幾個(gè)推論:
A導(dǎo)致B:充分條件
B導(dǎo)致A:必要條件
C導(dǎo)致A和B:A和B同源
A和B如果有因果:充分且必要條件
相關(guān)和因果的區(qū)別:
相關(guān):兩個(gè)變量或多個(gè)變量之間的相互影響程度;核心點(diǎn):變量與變量之間互為相關(guān),沒有先后順序;
因果: 前一個(gè)事件對后一個(gè)事件的作用的關(guān)系及強(qiáng)度,核心點(diǎn):有嚴(yán)格的先后順序(變化可能會(huì)有延遲),如蝴蝶效應(yīng)。
好玩的題目:
Y=0.5X? y和x是相關(guān)還是因果?
y=0.5X+0.5z? y和x是相關(guān)還是因果?
答案:都是相關(guān)
因果的前提是:有一個(gè)東西是先發(fā)生,而相關(guān)是沒有先后順序的,所以上述2個(gè)都是相關(guān),而不是因果。
Q4、什么是聚類?業(yè)務(wù)應(yīng)用場景?常見算法?
定義:
將相似的對象,將對象的特征進(jìn)行抽象,通過算法將特征相似的對象化為一類,是一種無監(jiān)督機(jī)器學(xué)習(xí)算法。
考點(diǎn)1:對于聚類,如何確定分類的數(shù)量N;
考點(diǎn)2:如何選擇進(jìn)行聚類的特征,比如要區(qū)分男女,有喉結(jié)的就是男生,留長發(fā)的就是女生;
應(yīng)用場景:
個(gè)性化推薦(電商):相似用戶行為相似,會(huì)分到某個(gè)類,如用戶分層;
用戶畫像:基于用戶的購買偏好、消費(fèi)能力進(jìn)行用戶畫像;
常見算法:
Kmeans聚類
DBSCAN聚類
Q5、什么是分類?業(yè)務(wù)應(yīng)用場景?常見算法?
定義:
學(xué)習(xí)已有分類樣本的特征,對新數(shù)據(jù)進(jìn)行劃分,是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,分類是明確的,是有歷史樣本可學(xué)習(xí)的。
應(yīng)用場景:
互聯(lián)網(wǎng)金融用戶信用等級分類
垃圾郵件分類
常見算法:
邏輯回歸
SVM
貝葉斯
決策樹
KNN
XGboost
Q6、什么是回歸?業(yè)務(wù)應(yīng)用場景?常見回歸算法?
定義:
兩個(gè)或多個(gè)變量之間是否相關(guān),相關(guān)強(qiáng)度,并建立數(shù)學(xué)模型,定量評估
人話:我和你有沒有關(guān)系,什么關(guān)系,深到什么程度。
本質(zhì):找到一條之間最合適的平均線,讓線的附近的點(diǎn)分布均勻
應(yīng)用場景:
運(yùn)營推廣中,是不是花的錢越多,買的流量越大,品類越豐富,用戶活躍越高,那么,多到什么程度、大到什么程度、豐富到什么程度、用戶的活躍最高,留存最高;
智慧城市的交通,預(yù)測交通擁塞程度:自變量:時(shí)間段、商業(yè)指數(shù)、住宅指數(shù)、城區(qū)指數(shù)、道路指數(shù),因變量:兩個(gè)連續(xù)信號燈之間道路的通行時(shí)間。
常見回歸算法:
線性回歸
lasso回歸
ridge回歸
樹回歸
Q7、時(shí)間序列預(yù)測的原理是什么?有哪些應(yīng)用場景?
原理:
當(dāng)自變量是時(shí)間時(shí),且數(shù)據(jù)在時(shí)間上呈現(xiàn)出一定的規(guī)律,那么這種情況一般都可以使用時(shí)間序列預(yù)測接下來一段時(shí)間的數(shù)據(jù)走勢。這個(gè)規(guī)律表現(xiàn)為:數(shù)據(jù)整體變化的趨勢(可以理解為一條表征趨勢的直線)、季節(jié)性(可以理解為按照一定的周期重復(fù)出現(xiàn)的模式)和隨機(jī)性(可以理解為在零附近毫無規(guī)律的白噪聲)組成,時(shí)間序列就是將數(shù)據(jù)按照這三個(gè)部分分別拆解,再基于歷史數(shù)據(jù)進(jìn)行組合預(yù)測。
應(yīng)用場景:
一般應(yīng)用于年度的KPI預(yù)測,產(chǎn)品的活躍用戶數(shù)趨勢,羽絨服的銷量等。
Q8、時(shí)間序列預(yù)測需要注意的點(diǎn)?和回歸有何區(qū)別?
需要注意的點(diǎn):
時(shí)間間隔是固定的;
最近的數(shù)據(jù)對于預(yù)測影響程度越大;
預(yù)測是有季節(jié)性的,這里的季節(jié)性不一定是春夏秋冬,凡是以一定周期重復(fù)出現(xiàn)的都可以稱為有季節(jié)性;
回歸預(yù)測和時(shí)間序列預(yù)測的區(qū)別:
回歸是自變量對于因變量的趨勢,用以表征自變量和因變量之間的定量關(guān)系,一般來說自變量和因變量只能是連續(xù)的數(shù)據(jù);
時(shí)間序列預(yù)測的自變量可以是任何數(shù)據(jù),包括時(shí)間,只要數(shù)據(jù)呈現(xiàn)出周期性的趨勢;
回歸不能做季節(jié)性的預(yù)測;
以上就是【數(shù)分面試寶典】系列—面試業(yè)務(wù)題系列第3篇文章的內(nèi)容,部分歷史文章請回翻公眾號,更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中,敬請期待,如果覺得不錯(cuò),也歡迎分享、點(diǎn)贊和點(diǎn)在看哈