數(shù)據(jù)挖掘:從大量的數(shù)據(jù)中,通過統(tǒng)計學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘出未知的、具有價值的信息和知識的過程。
數(shù)據(jù)挖掘交叉性:統(tǒng)計學(xué)、算法、數(shù)據(jù)可視化、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、市場營銷等學(xué)科。
數(shù)據(jù)挖掘誤區(qū):數(shù)據(jù)挖掘是對某些大量數(shù)據(jù)操作的算法,這些算法能夠自動地認(rèn)識新的知識。
數(shù)據(jù)挖掘是需要非常高深的分析技能,需要精通高深的挖掘算法,需要熟練程序開發(fā)。
實際情況:人們處理商業(yè)問題的某些方法,通過適量的數(shù)據(jù)挖掘獲取有價值的結(jié)果
最好的挖掘工程師是熟悉和理解業(yè)務(wù)的人。
與分析的區(qū)別:
項目
數(shù)據(jù)分析
數(shù)據(jù)挖掘
定義
根據(jù)分析目的,用適當(dāng)?shù)姆治龇椒肮ぞ?,對手機(jī)來的數(shù)據(jù)進(jìn)行處理與分析,提前有價值的信息,發(fā)揮數(shù)據(jù)的作用
從大量的數(shù)據(jù)中,通過統(tǒng)計學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘出未知的、具有價值的信息和知識的過程。
作用
現(xiàn)狀分析、原因分析、預(yù)測分析
解決四類問題:分類、聚類、關(guān)聯(lián)、預(yù)測
方法
對比分析、分組分析、交叉分析、回歸分析
決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析、聚類分析等
結(jié)果
指標(biāo)統(tǒng)計量結(jié)果,如總和、平均值等
輸出模型或規(guī)則
模型與算法
模型
定量:數(shù)學(xué)公式(Y=a*X)
定性:規(guī)則(年齡>30歲and收入>1萬元)
算法:實現(xiàn)數(shù)據(jù)挖掘技術(shù)、模型的具體步驟與方法。
數(shù)據(jù)挖掘常見問題
從商業(yè)角度,需要解決哪些問題?轉(zhuǎn)為數(shù)據(jù)挖掘問題
用戶流失預(yù)測
分類問題
促銷活動相應(yīng)
目標(biāo)市場細(xì)分
聚類問題
交叉銷售提升
關(guān)聯(lián)問題
未來銷售預(yù)測
預(yù)測問題
分類特點
分類型的目標(biāo)變量(Y)是監(jiān)督學(xué)習(xí);(無監(jiān)督的學(xué)習(xí):晚上我們拍星空圖片,然后不去標(biāo)注每個星星的變化,要求計算機(jī)找出每個星星的運動軌跡;有監(jiān)督學(xué)習(xí)我們標(biāo)識每個星星,然后讓計算機(jī)學(xué)習(xí),這就是有監(jiān)督學(xué)習(xí);有監(jiān)督學(xué)習(xí),數(shù)據(jù)比較精確,確定方向,但是樣本太大,人工標(biāo)識難度大;無監(jiān)督學(xué)習(xí)容易獲得大量數(shù)據(jù),沒有標(biāo)識,方向感不強(qiáng)。強(qiáng)化學(xué)習(xí),計算機(jī)在人為給定的方向下,自己試著走一個方向,然后有人告訴它好不好,這就是反饋信息。)
使用已知的目標(biāo)分裂的歷史樣本來訓(xùn)練;
需要對未知分類的樣本預(yù)測所屬的分類。
常見的分類方法
決策樹、貝葉斯、KNN、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、邏輯回歸。
分析商業(yè)問題
用戶流失預(yù)測、促銷活動響應(yīng)、用戶信用評估。
聚類特點
無分類目標(biāo)變量(Y)無監(jiān)督學(xué)習(xí)
物以類聚思想。
常見聚類算法
劃分聚類、層次聚類、密度聚類、網(wǎng)絡(luò)聚類、基于模型聚類。
聚類商業(yè)問題
目標(biāo)市場細(xì)分
現(xiàn)有客戶細(xì)分
關(guān)聯(lián)特點
無目標(biāo)變量(Y)無監(jiān)督學(xué)習(xí)
基于數(shù)據(jù)項關(guān)聯(lián),識別頻繁發(fā)生的模式
關(guān)聯(lián)商業(yè)問題
哪些商品同時購買幾率高?
如何提高商品銷售和交叉銷售?
預(yù)測特點
數(shù)值型目標(biāo)變量(Y)有監(jiān)督學(xué)習(xí)
需要已知的歷史樣本來訓(xùn)練模型
對未知的樣本預(yù)測其的目標(biāo)值
預(yù)測方法:
簡單線性回歸;多重線性回歸;時間序列
數(shù)據(jù)挖掘過程
1商業(yè)理解
確定商業(yè)目標(biāo)
確定挖掘目標(biāo)
制定項目方案
2數(shù)據(jù)理解
數(shù)據(jù)收集
數(shù)據(jù)描述
數(shù)據(jù)探索
質(zhì)量描述
3數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備階段主要完成在建立數(shù)據(jù)挖掘模型之前對數(shù)據(jù)的最后準(zhǔn)備工作,在這個階段,需要把各個子表關(guān)聯(lián)起來,最終形成一張最終數(shù)據(jù)寬表。
數(shù)據(jù)導(dǎo)入
數(shù)據(jù)抽取
數(shù)據(jù)清洗
數(shù)據(jù)合并
變量計算
4模型構(gòu)建數(shù)據(jù)挖掘工作的核心階段
準(zhǔn)備訓(xùn)練集和驗證集
選擇使用建模技術(shù)
建立模型
模型對比
5模型評估
技術(shù)層面
設(shè)計對照組進(jìn)行對比
模型評估指標(biāo),如命中率、覆蓋率、提升度等指標(biāo)進(jìn)行評估。
業(yè)務(wù)經(jīng)驗
業(yè)務(wù)專家憑借業(yè)務(wù)知識對數(shù)據(jù)挖掘結(jié)果進(jìn)行評估
6模型部署
模型部署是確保數(shù)據(jù)挖掘結(jié)果程序和的關(guān)鍵一步。該階段的蛀牙結(jié)果如下:
營銷過程跟蹤記錄
觀測模型衰退進(jìn)行模型優(yōu)化
引入新的變量進(jìn)行模型優(yōu)化
模型寫成程序部署到平臺