SPSS Model學(xué)習(xí)總結(jié)

數(shù)據(jù)挖掘:從大量的數(shù)據(jù)中,通過統(tǒng)計學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘出未知的、具有價值的信息和知識的過程。

數(shù)據(jù)挖掘交叉性:統(tǒng)計學(xué)、算法、數(shù)據(jù)可視化、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、市場營銷等學(xué)科。

數(shù)據(jù)挖掘誤區(qū):數(shù)據(jù)挖掘是對某些大量數(shù)據(jù)操作的算法,這些算法能夠自動地認(rèn)識新的知識。

數(shù)據(jù)挖掘是需要非常高深的分析技能,需要精通高深的挖掘算法,需要熟練程序開發(fā)。

實際情況:人們處理商業(yè)問題的某些方法,通過適量的數(shù)據(jù)挖掘獲取有價值的結(jié)果

最好的挖掘工程師是熟悉和理解業(yè)務(wù)的人。

與分析的區(qū)別:

項目

數(shù)據(jù)分析

數(shù)據(jù)挖掘

定義

根據(jù)分析目的,用適當(dāng)?shù)姆治龇椒肮ぞ?,對手機(jī)來的數(shù)據(jù)進(jìn)行處理與分析,提前有價值的信息,發(fā)揮數(shù)據(jù)的作用

從大量的數(shù)據(jù)中,通過統(tǒng)計學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘出未知的、具有價值的信息和知識的過程。

作用

現(xiàn)狀分析、原因分析、預(yù)測分析

解決四類問題:分類、聚類、關(guān)聯(lián)、預(yù)測

方法

對比分析、分組分析、交叉分析、回歸分析

決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析、聚類分析等

結(jié)果

指標(biāo)統(tǒng)計量結(jié)果,如總和、平均值等

輸出模型或規(guī)則

模型與算法

模型

定量:數(shù)學(xué)公式(Y=a*X)

定性:規(guī)則(年齡>30歲and收入>1萬元)

算法:實現(xiàn)數(shù)據(jù)挖掘技術(shù)、模型的具體步驟與方法。

數(shù)據(jù)挖掘常見問題

從商業(yè)角度,需要解決哪些問題?轉(zhuǎn)為數(shù)據(jù)挖掘問題

用戶流失預(yù)測

分類問題

促銷活動相應(yīng)

目標(biāo)市場細(xì)分

聚類問題

交叉銷售提升

關(guān)聯(lián)問題

未來銷售預(yù)測

預(yù)測問題

分類特點

分類型的目標(biāo)變量(Y)是監(jiān)督學(xué)習(xí);(無監(jiān)督的學(xué)習(xí):晚上我們拍星空圖片,然后不去標(biāo)注每個星星的變化,要求計算機(jī)找出每個星星的運動軌跡;有監(jiān)督學(xué)習(xí)我們標(biāo)識每個星星,然后讓計算機(jī)學(xué)習(xí),這就是有監(jiān)督學(xué)習(xí);有監(jiān)督學(xué)習(xí),數(shù)據(jù)比較精確,確定方向,但是樣本太大,人工標(biāo)識難度大;無監(jiān)督學(xué)習(xí)容易獲得大量數(shù)據(jù),沒有標(biāo)識,方向感不強(qiáng)。強(qiáng)化學(xué)習(xí),計算機(jī)在人為給定的方向下,自己試著走一個方向,然后有人告訴它好不好,這就是反饋信息。)

使用已知的目標(biāo)分裂的歷史樣本來訓(xùn)練;

需要對未知分類的樣本預(yù)測所屬的分類。

常見的分類方法

決策樹、貝葉斯、KNN、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、邏輯回歸。

分析商業(yè)問題

用戶流失預(yù)測、促銷活動響應(yīng)、用戶信用評估。

聚類特點

無分類目標(biāo)變量(Y)無監(jiān)督學(xué)習(xí)

物以類聚思想。

常見聚類算法

劃分聚類、層次聚類、密度聚類、網(wǎng)絡(luò)聚類、基于模型聚類。

聚類商業(yè)問題

目標(biāo)市場細(xì)分

現(xiàn)有客戶細(xì)分

關(guān)聯(lián)特點

無目標(biāo)變量(Y)無監(jiān)督學(xué)習(xí)

基于數(shù)據(jù)項關(guān)聯(lián),識別頻繁發(fā)生的模式

關(guān)聯(lián)商業(yè)問題

哪些商品同時購買幾率高?

如何提高商品銷售和交叉銷售?

預(yù)測特點

數(shù)值型目標(biāo)變量(Y)有監(jiān)督學(xué)習(xí)

需要已知的歷史樣本來訓(xùn)練模型

對未知的樣本預(yù)測其的目標(biāo)值

預(yù)測方法:

簡單線性回歸;多重線性回歸;時間序列

數(shù)據(jù)挖掘過程

1商業(yè)理解

確定商業(yè)目標(biāo)

確定挖掘目標(biāo)

制定項目方案

2數(shù)據(jù)理解

數(shù)據(jù)收集

數(shù)據(jù)描述

數(shù)據(jù)探索

質(zhì)量描述

3數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備階段主要完成在建立數(shù)據(jù)挖掘模型之前對數(shù)據(jù)的最后準(zhǔn)備工作,在這個階段,需要把各個子表關(guān)聯(lián)起來,最終形成一張最終數(shù)據(jù)寬表。

數(shù)據(jù)導(dǎo)入

數(shù)據(jù)抽取

數(shù)據(jù)清洗

數(shù)據(jù)合并

變量計算

4模型構(gòu)建數(shù)據(jù)挖掘工作的核心階段

準(zhǔn)備訓(xùn)練集和驗證集

選擇使用建模技術(shù)

建立模型

模型對比

5模型評估

技術(shù)層面

設(shè)計對照組進(jìn)行對比

模型評估指標(biāo),如命中率、覆蓋率、提升度等指標(biāo)進(jìn)行評估。

業(yè)務(wù)經(jīng)驗

業(yè)務(wù)專家憑借業(yè)務(wù)知識對數(shù)據(jù)挖掘結(jié)果進(jìn)行評估

6模型部署

模型部署是確保數(shù)據(jù)挖掘結(jié)果程序和的關(guān)鍵一步。該階段的蛀牙結(jié)果如下:

營銷過程跟蹤記錄

觀測模型衰退進(jìn)行模型優(yōu)化

引入新的變量進(jìn)行模型優(yōu)化

模型寫成程序部署到平臺

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容