隨著數(shù)據(jù)規(guī)模的日益龐大,僅僅支持查詢(xún)、統(tǒng)計(jì)的產(chǎn)品已經(jīng)不能滿(mǎn)足大部分用戶(hù),進(jìn)而對(duì)數(shù)據(jù)分析挖掘的需求越來(lái)越大。
盡管意識(shí)到數(shù)據(jù)分析挖掘的重要性,但數(shù)據(jù)分析挖掘具體能做什么呢?究竟能帶來(lái)什么具體化的價(jià)值呢?
本文將從以下幾個(gè)角度描述:

一、描述統(tǒng)計(jì)
提到數(shù)據(jù)分析挖掘第一反應(yīng)是各種高深、復(fù)雜的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)框架,但對(duì)于一個(gè)僅支持查詢(xún)、統(tǒng)計(jì)的產(chǎn)品首先需要的是描述度量。
1、度量指數(shù)
管理學(xué)大師彼得德魯克曾經(jīng)說(shuō)過(guò)“你如果無(wú)法度量它,就無(wú)法管理它”(“It you can’t measure it, you can’t manage it”)。要想有效管理,就難以繞開(kāi)度量的問(wèn)題。
(1)NBA球員效率指數(shù)
例如對(duì)于一個(gè)新手而言,想要知道哪個(gè)球員是最優(yōu)秀的,如果告訴他得分?jǐn)?shù)、助攻數(shù)、搶斷數(shù)等信息,肯定會(huì)被搞的暈頭轉(zhuǎn)向,如果你直接告訴他NBA球員效率指數(shù)會(huì)省事很多。
NBA球員效率指數(shù) = [(得分?jǐn)?shù)+助攻數(shù)+總籃板數(shù)+搶斷數(shù)+蓋帽數(shù))-(投籃出手?jǐn)?shù)-投籃命中數(shù))-(罰球出手?jǐn)?shù)-罰球命中數(shù))-失誤數(shù)]/球員的比賽場(chǎng)次
有了NBA球員效率指數(shù),我們可以用一個(gè)單一的數(shù)字來(lái)綜合判斷球員表現(xiàn),比較各個(gè)球員間的整體表現(xiàn)。
(2)空氣污染指數(shù)
例如想知道當(dāng)天的空氣污染情況,空氣污染的污染物有:煙塵、懸浮顆粒物、二氧化氮、二氧化硫、一氧化碳、揮發(fā)性有機(jī)化合物等等,根據(jù)這樣一堆數(shù)據(jù)很難衡量當(dāng)天的空氣污染情況,用空氣污染指數(shù)可以簡(jiǎn)潔明了的表示。
空氣污染指數(shù),是將常規(guī)監(jiān)測(cè)的幾種空氣污染物濃度簡(jiǎn)化成為單一的概念性指數(shù)值形式。
空氣污染指數(shù)劃分為0-50、51-100、101-150、151-200、201-300和大于300六檔,對(duì)應(yīng)于空氣質(zhì)量的六個(gè)級(jí)別,指數(shù)越大,級(jí)別越高,說(shuō)明污染越嚴(yán)重,對(duì)人體健康的影響也越明顯。
(3)平均學(xué)分績(jī)點(diǎn)
例如想知道學(xué)生在大學(xué)四年的學(xué)習(xí)表現(xiàn),如果告訴他在大一那年毛概考了多少分,大二那年高數(shù)考了多少分顯然不是很合適。我們使用GPA來(lái)衡量。
平均學(xué)分績(jī)點(diǎn)(Grade Point Average,即GPA)是以學(xué)分與績(jī)點(diǎn)作為衡量學(xué)生學(xué)習(xí)的量與質(zhì)的計(jì)算單位.
我國(guó)院?;旧喜捎冒俜种疲谵D(zhuǎn)換為GPA時(shí)應(yīng)采取以下標(biāo)準(zhǔn):90至100=4,80至89=3,70至79=2,60至69=1,小于60分=0
在申請(qǐng)?jiān)盒r(shí)可以根據(jù)GPA快速的衡量一個(gè)學(xué)生的學(xué)習(xí)綜合能力。
(4)構(gòu)建你的業(yè)務(wù)指數(shù)
生活中有各種這類(lèi)指數(shù)(支付寶芝麻信用、股票的投資風(fēng)險(xiǎn)系數(shù)、體重的IBM指數(shù),...),有的計(jì)算方法很簡(jiǎn)單,有的計(jì)算比較復(fù)雜,考慮影響因素很多。
盡管沒(méi)有一個(gè)指數(shù)能完美無(wú)缺的衡量問(wèn)題,但沒(méi)有比這種指數(shù)更簡(jiǎn)單明了的度量信息了。
這樣的指數(shù)構(gòu)建往往需要考慮業(yè)務(wù)的需求,參考行業(yè)標(biāo)準(zhǔn),考慮的影響因素要盡可能全面,要使搭建的指數(shù)值得信服。
2、不是純粹的統(tǒng)計(jì)
數(shù)據(jù)分析的目的就是發(fā)現(xiàn)數(shù)據(jù)的特征和變化規(guī)律,如果只告訴你一個(gè)數(shù)字,比如昨天UV是10萬(wàn),你能分析出什么?該UV值是好還是壞?是在變好還是變壞?其實(shí)什么結(jié)論都得不到,你所做的只是將數(shù)據(jù)展現(xiàn)出來(lái),并非在做分析。
在發(fā)展初級(jí)階段,我們經(jīng)常見(jiàn)到根據(jù)各種屬性畫(huà)分類(lèi)餅圖、重點(diǎn)數(shù)值的顯示,根據(jù)時(shí)間畫(huà)折線圖、根據(jù)地域及數(shù)量畫(huà)熱力地圖、根據(jù)對(duì)象及數(shù)量畫(huà)top柱形圖,本著豐富內(nèi)容的目的蠻橫堆砌,全篇下來(lái)沒(méi)有看到什么真正有價(jià)值的信息。
單純的數(shù)據(jù)統(tǒng)計(jì)圖價(jià)值是不大的,有價(jià)值的是能夠反應(yīng)什么有意義的信息。
以典型的折線圖為例
(1)尋找拐點(diǎn)的原因[2]
下圖展示了2015-2019年間某家企業(yè)的年增長(zhǎng)率(折線)和營(yíng)收總額(柱狀)變化情況。
如果到畫(huà)出這張圖就結(jié)束了,可不太行哦。我們需要關(guān)注“拐點(diǎn)”。
2017年是折線拐點(diǎn),要結(jié)合其他維度數(shù)據(jù)找到異常原因。
為什么企業(yè)年增長(zhǎng)率從2015年開(kāi)始的不斷上升,突然在2017年急劇下降呢?
需要另一維度的數(shù)據(jù)進(jìn)行對(duì)比分析,比如圖中的營(yíng)收總額,很明顯在2017年的時(shí)候,營(yíng)收總額突然下降,之后雖然營(yíng)收總額不斷回升,卻仍然阻止不了企業(yè)增長(zhǎng)率的下跌。
【結(jié)論】
2017年企業(yè)營(yíng)收情況太差,造成企業(yè)增長(zhǎng)速率的放緩;
2017年之后,企業(yè)營(yíng)收基本保持不變,難以支撐高速發(fā)展的企業(yè),因此企業(yè)發(fā)展逐漸陷入停滯;
(2)有效預(yù)測(cè)[2]
到拐點(diǎn)分析就結(jié)束顯然是不夠體現(xiàn)分析價(jià)值的,預(yù)測(cè)是很重要的分析能力。
數(shù)據(jù)預(yù)測(cè)的方法有很多,這里使用回歸預(yù)測(cè),預(yù)測(cè)下年度的值為XXX(在0.09左右)。
【結(jié)論】
因?yàn)闋I(yíng)收情況的平緩增長(zhǎng),企業(yè)的增長(zhǎng)率大概率會(huì)保持在現(xiàn)有的9%不變,或者緩慢下降,除非企業(yè)采取措施擴(kuò)大市場(chǎng)等促進(jìn)營(yíng)收增長(zhǎng)的方案。
(3)差異點(diǎn)原因[2]
下圖為A、B、C、D、E五個(gè)不同產(chǎn)品在不同時(shí)間內(nèi)的銷(xiāo)售情況。
由于數(shù)據(jù)波動(dòng)比較大,拐點(diǎn)太多,轉(zhuǎn)而尋找差異點(diǎn)。
畫(huà)完圖就結(jié)束了可不行哦。
2010年3月B產(chǎn)品的銷(xiāo)量上升到了高峰,而其他產(chǎn)品均下降,這就是一個(gè)差異點(diǎn);
而2011年1月雖然B產(chǎn)品銷(xiāo)量也達(dá)到了高峰,但是其他產(chǎn)品也同時(shí)呈現(xiàn)了銷(xiāo)量上升的情況,因此不足以成為一個(gè)差異點(diǎn)
我們需要尋找差異點(diǎn)原因。
(4)趨勢(shì)分析[2]
根據(jù)一個(gè)產(chǎn)品的趨勢(shì)情況,提出分析建議
B產(chǎn)品3年每月的銷(xiāo)售趨勢(shì)走向折線圖如下
2009年整體平穩(wěn),略有上升趨勢(shì),需增加投資;
2010年銷(xiāo)售波動(dòng)大,上升趨勢(shì),需控制風(fēng)險(xiǎn),進(jìn)行優(yōu)化;
2011年,沒(méi)有規(guī)律下降,產(chǎn)品不行了;
二、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為規(guī)則、概念、規(guī)律及模式等[3]。
1、常見(jiàn)的數(shù)據(jù)分析挖掘項(xiàng)目
1.1、群體處理
(1)群體細(xì)分
群體細(xì)分的目的一般是對(duì)不同類(lèi)型客戶(hù)的精準(zhǔn)營(yíng)銷(xiāo),實(shí)現(xiàn)利潤(rùn)最大化。
多采用聚類(lèi)技術(shù)來(lái)進(jìn)行群體細(xì)分,群體劃分?jǐn)?shù)量的設(shè)置比較麻煩;
當(dāng)然如果已有標(biāo)簽數(shù)據(jù)的存儲(chǔ),可以用決策樹(shù)等有監(jiān)督分類(lèi)算法;
數(shù)據(jù)特征的選擇要盡可能全面、相關(guān)。
群體細(xì)分不僅能夠?qū)崿F(xiàn)客戶(hù)的分類(lèi),還給出了每一類(lèi)的特征,有助于對(duì)每一類(lèi)小群體的了解。
航空公司為了針對(duì)不同類(lèi)型客戶(hù),進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),實(shí)現(xiàn)利潤(rùn)最大化,需要對(duì)客戶(hù)進(jìn)行細(xì)分。
衡量一個(gè)客戶(hù)價(jià)值需要考慮:消費(fèi)時(shí)間間隔R,客戶(hù)關(guān)系長(zhǎng)度L,消費(fèi)頻率F,飛行里程M和折扣系數(shù)的平均值C五個(gè)因素。
傳統(tǒng)的統(tǒng)計(jì)對(duì)于多指標(biāo)的劃分并不方便,我們使用聚類(lèi)算法來(lái)處理。
利用K-Means聚類(lèi)進(jìn)行航空公司客戶(hù)價(jià)值分析
針對(duì)不同的群體特征設(shè)置客戶(hù)價(jià)值,對(duì)不同類(lèi)型客戶(hù)做精準(zhǔn)營(yíng)銷(xiāo)。
(2)群體社交關(guān)系
社交網(wǎng)絡(luò)是由許多節(jié)點(diǎn)構(gòu)成的一種社會(huì)結(jié)構(gòu),節(jié)點(diǎn)通常是指?jìng)€(gè)人或組織,而社交網(wǎng)絡(luò)代表著各種社會(huì)關(guān)系。一般使用社交網(wǎng)絡(luò)算法來(lái)進(jìn)行關(guān)系挖掘。
金融欺詐往往組團(tuán)發(fā)展,我們采用社交網(wǎng)絡(luò)算法在金融反欺詐中的應(yīng)用挖掘欺詐團(tuán)伙。
社交關(guān)系的構(gòu)建數(shù)據(jù)可以是來(lái)自直接關(guān)系數(shù)據(jù),如聯(lián)系人數(shù)據(jù)(用戶(hù)申請(qǐng)貸款時(shí)填寫(xiě)的緊急聯(lián)系人號(hào)碼)等;也可以來(lái)自間接關(guān)系數(shù)據(jù),如通過(guò)用戶(hù)行為數(shù)據(jù)挖掘出共用手機(jī)設(shè)備等,基于這樣的關(guān)系構(gòu)建社交網(wǎng)絡(luò)。
如圖是一個(gè)典型的欺詐團(tuán)體,紅色是被拒絕的用戶(hù),黑色是通過(guò)但是有逾期表現(xiàn)的用戶(hù),綠色是通過(guò)并且表現(xiàn)良好的用戶(hù),該團(tuán)的拒絕率達(dá)到66.8%,說(shuō)明該團(tuán)的平均用戶(hù)信用值較低,而通過(guò)的用戶(hù)中91.4%有逾期表現(xiàn),進(jìn)一步驗(yàn)證了該團(tuán)的欺詐性。
(2)群體特征挖掘
已知群體劃分結(jié)果,想要知道特殊群體的特征信息,例如付費(fèi)用戶(hù)特征、續(xù)費(fèi)用戶(hù)特征等。
一般采用有監(jiān)督、決策樹(shù)算法。
從美國(guó)1994年人口普查數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),想要了解年收入超過(guò)50k群體的特征??墒褂玫淖兞繛椋耗挲gage、工作類(lèi)別workclass、fnlwgt、教育education、教育年限education.num、婚姻狀況marital.status、職業(yè)occupation、社會(huì)角色relationship、種族race、性別sex、資本收益capital.gain、資本損失capital.loss、每周幾小時(shí)hours.per.week、祖國(guó)native.country、收入income
藍(lán)色部分為年收入>50k的群體,藍(lán)色越深表示依據(jù)這些特性的判斷結(jié)果越準(zhǔn)確,從左往右來(lái)看的藍(lán)色群體的特征:
1、婚姻狀況marital.status<=4.5年,資本收益capital.gain>7139.5
2、婚姻狀況marital.status>4.5年,教育年限education.num<12.5年,資本收益capital.gain>5059.5
3、婚姻狀況marital.status>4.5年,教育年限education.num<12.5年,資本收益capital.gain<=5059.5,職業(yè)occupation>8.5,資本損失capital.loss>1846
...
1.2、概率預(yù)測(cè)
概率學(xué)是一門(mén)研究不確定事件和結(jié)果的學(xué)問(wèn),對(duì)于很多不確定風(fēng)險(xiǎn),我們使用概率來(lái)量化風(fēng)險(xiǎn),幫助決策者認(rèn)清哪些事情值得冒險(xiǎn)。
一般是有監(jiān)督、分類(lèi)模型,可選擇的算法很廣,多試試選擇最合適的就好。
我們想知道哪些客戶(hù)可能會(huì)成為流失客戶(hù),通過(guò)概率預(yù)測(cè)找到這些客戶(hù)提前采取營(yíng)銷(xiāo)手段進(jìn)行客戶(hù)挽留。
以電信客戶(hù)流失預(yù)測(cè)為例:
提供數(shù)據(jù)為用戶(hù)ID、性別、是否老年人、月費(fèi)用、總費(fèi)用等19個(gè)特征,該用戶(hù)是否流失(Yes or No)為標(biāo)簽信息。
構(gòu)建分類(lèi)模型,使用10中分類(lèi)算法做算法選型
擬合發(fā)現(xiàn)10種分類(lèi)算法中樸素貝葉斯(Naive Bayes)的F1 Score最大,所以使用樸素貝葉斯模型效果最好,使用model.predict_proba()預(yù)測(cè)客戶(hù)的流失概率。
1.3、趨勢(shì)與預(yù)測(cè)
我們需要趨勢(shì)預(yù)測(cè)來(lái)對(duì)未來(lái)行情的總體運(yùn)行方向有一個(gè)清晰的認(rèn)識(shí)
(1)趨勢(shì)預(yù)測(cè)
趨勢(shì)預(yù)測(cè)分析法亦稱(chēng)時(shí)間序列預(yù)測(cè)分析法,將過(guò)去的歷史資料按時(shí)間順序排列,然后再運(yùn)用一定的數(shù)字模型來(lái)預(yù)計(jì)、推測(cè)一種預(yù)測(cè)方法。
一般使用指數(shù)平滑法、ARAMA、LSTM等時(shí)序算法,本質(zhì)是序列擬合。
《哪吒之魔童降世》上映以來(lái)朋友圈和微博各種安利,上映第8天,實(shí)時(shí)票房15億多。哪吒票房最終究竟能有多少?用科學(xué)預(yù)測(cè)下《哪吒》票房:
通過(guò)對(duì)歷史票房數(shù)據(jù)進(jìn)行多項(xiàng)式曲線擬合,建立一個(gè)票房走勢(shì)的“模型”,再把現(xiàn)有的票房套進(jìn)模型里做計(jì)算
假設(shè)上映60天,預(yù)計(jì)票房結(jié)果是 41.3 億
(2)回歸預(yù)測(cè)
回歸預(yù)測(cè)把影響預(yù)測(cè)目標(biāo)的各因素找出來(lái),然后找出這些因素和預(yù)測(cè)目標(biāo)之間的聯(lián)系關(guān)系。
一般采用有監(jiān)督、預(yù)測(cè)相關(guān)算法,可選模型比較多。
以房?jī)r(jià)預(yù)測(cè)為例,影響房?jī)r(jià)的因素有房屋面積、樓層、車(chē)庫(kù)、建筑年份等因素。
比較隨機(jī)森林、邏輯回歸、線性回歸、SVM算法的預(yù)測(cè),比較而言,對(duì)于這份數(shù)據(jù)集隨機(jī)森林的預(yù)測(cè)效果最優(yōu),SVM調(diào)參后有性能提升的空間。
當(dāng)提供有房屋面積、樓層、車(chē)庫(kù)、建筑年份等信息時(shí),即可預(yù)測(cè)該房屋的售價(jià)。
1.3、路徑分析
(1)路徑挖掘
路徑挖掘是常用的數(shù)據(jù)挖據(jù)方法之一, 是一種找尋頻繁訪問(wèn)路徑的方法。
一般采用關(guān)聯(lián)算法、社交網(wǎng)絡(luò)算法
通過(guò)挖掘?qū)W習(xí)者訪問(wèn)路徑習(xí)慣,以此改善教學(xué)平臺(tái)站點(diǎn)的設(shè)計(jì),基于關(guān)聯(lián)算法在網(wǎng)絡(luò)教學(xué)平臺(tái)中頻繁訪問(wèn)路徑研究
采集數(shù)據(jù)庫(kù)內(nèi)用戶(hù)的頁(yè)面訪問(wèn)路徑信息,頁(yè)面用A-K代替
假設(shè)我們得到這樣的結(jié)構(gòu)
A->D^E 0.333333333333
A^C->D 0.285714285714
A^C->E 1.0
即如果用戶(hù)訪問(wèn)了A,有33%的可能會(huì)訪問(wèn)D和E;
如果用戶(hù)訪問(wèn)了A和C,有28%的可能會(huì)訪問(wèn)D;
如果用戶(hù)訪問(wèn)了A和C,有100%的可能會(huì)訪問(wèn)E
此時(shí),我們可以以此為依據(jù),根據(jù)用戶(hù)行為改進(jìn)網(wǎng)頁(yè)的站點(diǎn)了。
(2)最優(yōu)路徑分析方法
路徑的最優(yōu)化問(wèn)題(暫放)
1.4、推薦系統(tǒng)
推薦系統(tǒng)是一種信息過(guò)濾系統(tǒng),用于預(yù)測(cè)用戶(hù)對(duì)物品的評(píng)分或偏好。
(1)相似對(duì)象/產(chǎn)品挖掘
基于領(lǐng)域的協(xié)同過(guò)濾算法主要有兩種,一種是基于物品的,一種是基于用戶(hù)的。
協(xié)同過(guò)濾推薦的本質(zhì)是尋找相似的對(duì)象/產(chǎn)品,所以在實(shí)現(xiàn)推薦的同時(shí),我們可以挖掘出面向客戶(hù)行為的相似對(duì)象。
已知客戶(hù)A,想要知道數(shù)據(jù)庫(kù)里和客戶(hù)A有相似行為的客戶(hù)有哪些?一直產(chǎn)品B,想知道和產(chǎn)品B一樣被某類(lèi)客戶(hù)喜歡的產(chǎn)品還有哪些?
例如協(xié)同過(guò)濾-音樂(lè)推薦,根據(jù)不同用戶(hù)對(duì)不同音樂(lè)的喜好得分,構(gòu)建協(xié)同過(guò)濾模型。
算法結(jié)果可以反饋每個(gè)用戶(hù)/音樂(lè)的相似度,例如用戶(hù)1相關(guān)的相似度為:
相似度 影評(píng)人編號(hào)
[(0.0500000000000213, '用戶(hù)2'),
(0.040000000000004, '用戶(hù)3'),
......]
向該用戶(hù)推薦音樂(lè)的話可以找到相似度高/滿(mǎn)足閾值的用戶(hù),推薦他們喜歡的音樂(lè)。
(2)其他推薦方法
當(dāng)然還有其他的推薦方法,例如基于內(nèi)容的推薦、基于相似行為的推薦。
2、業(yè)務(wù)需求針對(duì)性項(xiàng)目
2.1、有監(jiān)督分類(lèi)模型
有監(jiān)督項(xiàng)目要求積累一定的業(yè)務(wù)數(shù)據(jù)與對(duì)應(yīng)的分類(lèi)標(biāo)簽信息,基于業(yè)務(wù)長(zhǎng)期積累的有監(jiān)督數(shù)據(jù)構(gòu)建有價(jià)值的分類(lèi)模型。
一般使用各種分類(lèi)模型(SVM\隨機(jī)森林\xgboost...)、神經(jīng)網(wǎng)絡(luò),選擇很廣。
例如金融評(píng)分卡模型、文本分類(lèi)模型
2.2、其他
其他業(yè)務(wù)需求分析
參考資料
[1] 《赤裸裸的統(tǒng)計(jì)學(xué)》查爾斯·惠倫
[2] 趨勢(shì)分析:https://zhuanlan.zhihu.com/p/91309321
[3] 《數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營(yíng)實(shí)戰(zhàn)》盧輝











