Q1、什么是EDA(Exploratory Data Analysis)？

EDA（Exploratory Data Analysis）即數(shù)據(jù)探索性分析，需要對數(shù)據(jù)集中的變量進(jìn)行統(tǒng)計(jì)和分布描述、了解變量間的相互關(guān)系，從整體上了解數(shù)據(jù)集的數(shù)據(jù)特征。探索性分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性描述，主要包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析、分布以及一些基本的統(tǒng)計(jì)圖形。

①數(shù)據(jù)的頻數(shù)分析。在數(shù)據(jù)的預(yù)處理部分，利用頻數(shù)分析和交叉頻數(shù)分析可以檢驗(yàn)異常值

②數(shù)據(jù)的集中趨勢分析。用來反映數(shù)據(jù)的一般水平，常用的指標(biāo)有平均值、中位數(shù)和眾數(shù)等。

③數(shù)據(jù)的離散程度分析。主要是用來反映數(shù)據(jù)之間的差異程度，常用的指標(biāo)有方差和標(biāo)準(zhǔn)差。

④數(shù)據(jù)的分布。在統(tǒng)計(jì)分析中，通常要假設(shè)樣本所屬總體的分布屬于正態(tài)分布，因此需要用偏度和峰度兩個(gè)指標(biāo)來檢查樣本數(shù)據(jù)是否符合正態(tài)分布。

⑤數(shù)據(jù)的相關(guān)性分析。探索不同變量之間的相關(guān)性，可以使用相關(guān)性圖進(jìn)行展示，表示各變量之間的相關(guān)程度，為后續(xù)機(jī)器學(xué)習(xí)的特征選擇提供依據(jù)。

Q2、什么是同比、環(huán)比，意義是什么？

環(huán)比：與相連續(xù)的上一個(gè)統(tǒng)計(jì)周期進(jìn)行對比，環(huán)比增長速度=（本期數(shù)－上期數(shù)）÷上期數(shù)×100% ，反映本期比上期增長了多少，如2021年12月和2021年11月對比，環(huán)比的好處是可以更直觀的表明階段性的變換，但是會(huì)受季節(jié)性因素影響。

同比：是對去年同期的一個(gè)統(tǒng)計(jì)階段進(jìn)行對比，同比增長率=（本期數(shù)－同期數(shù)）÷同期數(shù)×100%，如今年的這個(gè)月和去年的這個(gè)月，同比的好處是可以排除一部分季節(jié)因素。

Q3、什么是相關(guān)性分析？相關(guān)和因果的區(qū)別是什么？

相關(guān)性的前提是各個(gè)變量之間是相互獨(dú)立的，業(yè)務(wù)上來說，每個(gè)指標(biāo)之間是沒有影響的，相關(guān)性系數(shù)：0.5以下相關(guān)性較弱，0.5 -0.8中度相關(guān)，大于0.8較強(qiáng)相關(guān)。

如果A和B相關(guān)，會(huì)有以下幾個(gè)推論：

A導(dǎo)致B：充分條件

B導(dǎo)致A：必要條件

C導(dǎo)致A和B：A和B同源

A和B如果有因果：充分且必要條件

相關(guān)和因果的區(qū)別：

相關(guān)：兩個(gè)變量或多個(gè)變量之間的相互影響程度；核心點(diǎn)：變量與變量之間互為相關(guān)，沒有先后順序；

因果: 前一個(gè)事件對后一個(gè)事件的作用的關(guān)系及強(qiáng)度，核心點(diǎn)：有嚴(yán)格的先后順序（變化可能會(huì)有延遲），如蝴蝶效應(yīng)。

好玩的題目：

Y=0.5X? y和x是相關(guān)還是因果？

y=0.5X+0.5z? y和x是相關(guān)還是因果？

答案：都是相關(guān)

因果的前提是：有一個(gè)東西是先發(fā)生，而相關(guān)是沒有先后順序的，所以上述2個(gè)都是相關(guān)，而不是因果。

Q4、什么是聚類？業(yè)務(wù)應(yīng)用場景？常見算法？

定義：

將相似的對象，將對象的特征進(jìn)行抽象，通過算法將特征相似的對象化為一類，是一種無監(jiān)督機(jī)器學(xué)習(xí)算法。

考點(diǎn)1：對于聚類，如何確定分類的數(shù)量N；

考點(diǎn)2：如何選擇進(jìn)行聚類的特征，比如要區(qū)分男女，有喉結(jié)的就是男生，留長發(fā)的就是女生；

應(yīng)用場景：

個(gè)性化推薦（電商）：相似用戶行為相似，會(huì)分到某個(gè)類，如用戶分層；

用戶畫像：基于用戶的購買偏好、消費(fèi)能力進(jìn)行用戶畫像；

常見算法：

Kmeans聚類

DBSCAN聚類

Q5、什么是分類？業(yè)務(wù)應(yīng)用場景？常見算法？

定義：

學(xué)習(xí)已有分類樣本的特征，對新數(shù)據(jù)進(jìn)行劃分，是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法，分類是明確的，是有歷史樣本可學(xué)習(xí)的。

應(yīng)用場景：

互聯(lián)網(wǎng)金融用戶信用等級分類

垃圾郵件分類

常見算法：

邏輯回歸

SVM

貝葉斯

決策樹

KNN

XGboost

Q6、什么是回歸？業(yè)務(wù)應(yīng)用場景？常見回歸算法？

定義：

兩個(gè)或多個(gè)變量之間是否相關(guān)，相關(guān)強(qiáng)度，并建立數(shù)學(xué)模型，定量評估

人話：我和你有沒有關(guān)系，什么關(guān)系，深到什么程度。

本質(zhì)：找到一條之間最合適的平均線，讓線的附近的點(diǎn)分布均勻

應(yīng)用場景：

運(yùn)營推廣中，是不是花的錢越多，買的流量越大，品類越豐富，用戶活躍越高，那么，多到什么程度、大到什么程度、豐富到什么程度、用戶的活躍最高，留存最高；

智慧城市的交通，預(yù)測交通擁塞程度：自變量：時(shí)間段、商業(yè)指數(shù)、住宅指數(shù)、城區(qū)指數(shù)、道路指數(shù)，因變量：兩個(gè)連續(xù)信號燈之間道路的通行時(shí)間。

常見回歸算法：

線性回歸

lasso回歸

ridge回歸

樹回歸

Q7、時(shí)間序列預(yù)測的原理是什么？有哪些應(yīng)用場景？

原理：

當(dāng)自變量是時(shí)間時(shí)，且數(shù)據(jù)在時(shí)間上呈現(xiàn)出一定的規(guī)律，那么這種情況一般都可以使用時(shí)間序列預(yù)測接下來一段時(shí)間的數(shù)據(jù)走勢。這個(gè)規(guī)律表現(xiàn)為：數(shù)據(jù)整體變化的趨勢（可以理解為一條表征趨勢的直線）、季節(jié)性（可以理解為按照一定的周期重復(fù)出現(xiàn)的模式）和隨機(jī)性（可以理解為在零附近毫無規(guī)律的白噪聲）組成，時(shí)間序列就是將數(shù)據(jù)按照這三個(gè)部分分別拆解，再基于歷史數(shù)據(jù)進(jìn)行組合預(yù)測。

應(yīng)用場景：

一般應(yīng)用于年度的KPI預(yù)測，產(chǎn)品的活躍用戶數(shù)趨勢，羽絨服的銷量等。

Q8、時(shí)間序列預(yù)測需要注意的點(diǎn)？和回歸有何區(qū)別？

需要注意的點(diǎn)：

時(shí)間間隔是固定的；

最近的數(shù)據(jù)對于預(yù)測影響程度越大；

預(yù)測是有季節(jié)性的，這里的季節(jié)性不一定是春夏秋冬，凡是以一定周期重復(fù)出現(xiàn)的都可以稱為有季節(jié)性；

回歸預(yù)測和時(shí)間序列預(yù)測的區(qū)別：

回歸是自變量對于因變量的趨勢，用以表征自變量和因變量之間的定量關(guān)系，一般來說自變量和因變量只能是連續(xù)的數(shù)據(jù)；

時(shí)間序列預(yù)測的自變量可以是任何數(shù)據(jù)，包括時(shí)間，只要數(shù)據(jù)呈現(xiàn)出周期性的趨勢；

回歸不能做季節(jié)性的預(yù)測；

以上就是【數(shù)分面試寶典】系列—面試業(yè)務(wù)題系列第3篇文章的內(nèi)容，部分歷史文章請回翻公眾號，更多數(shù)據(jù)分析面試筆試的文章持續(xù)更新中，敬請期待，如果覺得不錯(cuò)，也歡迎分享、點(diǎn)贊和點(diǎn)在看哈

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【數(shù)分面試寶典】數(shù)分面試常考業(yè)務(wù)題(三)

【數(shù)分面試寶典】數(shù)分面試?？紭I(yè)務(wù)題(三)

Q1、什么是EDA(Exploratory Data Analysis)？

Q2、什么是同比、環(huán)比，意義是什么？

Q3、什么是相關(guān)性分析？相關(guān)和因果的區(qū)別是什么？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【數(shù)分面試寶典】數(shù)分面試?？紭I(yè)務(wù)題(三)

Q1、什么是EDA(Exploratory Data Analysis)？

Q2、什么是同比、環(huán)比，意義是什么？

Q3、什么是相關(guān)性分析？相關(guān)和因果的區(qū)別是什么？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【數(shù)分面試寶典】數(shù)分面試?？紭I(yè)務(wù)題(三)

Q1、什么是EDA(Exploratory Data Analysis)？

Q2、什么是同比、環(huán)比，意義是什么？

Q3、什么是相關(guān)性分析？相關(guān)和因果的區(qū)別是什么？