3. 預(yù)測(cè)模型的介紹:從相關(guān)性到監(jiān)督分割模型

From Correlation to Supervised Segmentation

基礎(chǔ)概念:Identifying informative attributes; Segmenting data by progressive attribute selection.(定義信息化特征,通過程序化的特征選擇進(jìn)行數(shù)據(jù)分割) --本章關(guān)注模型預(yù)測(cè)(predictive modeling)

從對(duì)數(shù)據(jù)分組(分割)入手。信息(information)是降低某件事情不確定性的總量,僅是降低,但通常不會(huì)將事情變?yōu)榇_定事件。

Models, Induction, and Prediction(模型、歸納和預(yù)測(cè))

此處對(duì)建模進(jìn)行了舉例說明:將實(shí)地繪制成地圖時(shí),實(shí)地的絕大部分信息都被忽略,只有道路或其他關(guān)鍵信息進(jìn)行收集和呈現(xiàn),數(shù)據(jù)建模同理。

這里又提到了兩個(gè)大的類型:classification models(分類模型)和regression models(回歸模型),一個(gè)關(guān)注分組、一個(gè)關(guān)注數(shù)值。

首先進(jìn)行描述模型,即關(guān)潛在的注現(xiàn)象和過程,還不包括數(shù)字化的預(yù)測(cè)值。

術(shù)語(yǔ):監(jiān)督學(xué)習(xí)是一種建模方式,主要過程為,通過將已知各變量(attributes or features)作為參數(shù),帶入特定函數(shù)式(functions),得到一個(gè)預(yù)先設(shè)定的變量(即目標(biāo)變量),通過目標(biāo)變量(target variable)來反應(yīng)預(yù)測(cè)結(jié)果。

創(chuàng)造模型的過程通常被稱為模型歸納,從數(shù)據(jù)創(chuàng)造模型的過程也叫做歸納算法(induction algorithm)或?qū)W習(xí)(learner)。

術(shù)語(yǔ):induction(歸納) and deduction(推演),推演是通過某個(gè)特性規(guī)則,對(duì)事件進(jìn)行預(yù)測(cè),過程與歸納相反。

Supervised Segmentation

小節(jié)目標(biāo):我們?nèi)绾翁暨x一個(gè)或多個(gè)變量,來用于最好地將樣本數(shù)據(jù)分割成多個(gè)類型分組,以便于找到目標(biāo)變量(target variable of interest)。

舉例(幫助理解):在電信用戶攜號(hào)轉(zhuǎn)網(wǎng)(churn)案例中“中等年齡的專家,在紐約居住信用卡欠款(balance)在平均水平的人,有5%的幾率攜號(hào)轉(zhuǎn)網(wǎng)”,此處“中等年齡的專家,在紐約居住欠款在平均水平的人”是分組定義(definition of the segment)而“有5%的幾率攜號(hào)轉(zhuǎn)網(wǎng)”是目標(biāo)變量分組的預(yù)測(cè)值(predicted value of the target variable for the segment)。

Selecting Informative? Attributes

Pure:同組中所有元素的某個(gè)特征,對(duì)于目標(biāo)變量都是一致的情況;

Impure:同組中,至少有一個(gè)元素的特征值,對(duì)于目標(biāo)變量,與其他的元素是不同的情況。

一些并發(fā)癥or復(fù)雜的情況:

1. 元素特征并不能完美匹配分組,即當(dāng)某一個(gè)分組偶爾變?yōu)閜ure分組時(shí),其他的分組也很難基于這個(gè)特征變?yōu)閜ure分組;

2. 當(dāng)某個(gè)特征可以將數(shù)據(jù)分割出一個(gè)pure分組時(shí),這個(gè)特征會(huì)比其他的,不能完美制造pure分組的特征,更能夠降低整體數(shù)據(jù)的impurity嗎;

3. 并非所有特征都是用于二元區(qū)分?jǐn)?shù)據(jù)的,更可能包含三元甚至多元分組的特征;

4. 某些特征值是數(shù)字值形式,針對(duì)每個(gè)值結(jié)果進(jìn)行分組拆分是否有意義?

entropy:熵,用來衡量分組后的數(shù)據(jù)impurity值。

Entropy公式定義(公式3-1):

entropy = -p_{1} log(p_{1}) - p_{2}log(p_{2}) - ...

公式解釋:每個(gè)p_{i} 是特征i在數(shù)據(jù)集中出現(xiàn)的概率,范圍從0(沒有元素包含特征i)到1(所有元素都含有特征i),同時(shí)這也表示,至少會(huì)有2種或以上種類的數(shù)據(jù)特征可用來統(tǒng)計(jì)。

以一個(gè)+&-的二元分布來舉例說明entropy的概念:

p_{+} =1-p_{-}

故,當(dāng)p_{+} p_{-} 等于1時(shí),entropy = 0 為熵值最小,所有元素特征一致;

當(dāng)p_{+} =p_{-} =0.5時(shí),entropy = 1 為熵值最大,所有元素一半為+特征,一半為-特征;

整個(gè)情況下,隨著p_{+} 的從0到1的變化,entropy呈拋物線曲線的方式在坐標(biāo)軸上呈現(xiàn)。

名詞簡(jiǎn)稱:information gain(IG)表示將數(shù)據(jù)進(jìn)行重新分組后,purity的變化的量化考量結(jié)果。

Information gain(公式3-2)

IG(parent,children)= entropy(parent)-[p(c_{1})\times entropy(c_{1})+p(c_{2})\times entropy(c_{2})+\cdot \cdot \cdot ]

舉例1(按balance-賬單欠款數(shù)分組,<50k或≥50k):這里找了·和☆的例子,來說明對(duì)樣本數(shù)據(jù)進(jìn)行重新分割(segment)后,purity的變化(從parent到children),原始數(shù)據(jù)(parent)16個(gè)·&14個(gè)☆,entropy=0.99,很impure,但是將這30個(gè)數(shù)據(jù)拆成2組,組1(<50k)有12個(gè)點(diǎn)1個(gè)☆,組2(≥50k)有4個(gè)點(diǎn)13個(gè) ☆,此時(shí)組1entropy=0.39,組2entropy=0.79,結(jié)合公式3-2的表述,IG=0.99-[0.43x0.39+0.57x0.79]≈0.37,所以這個(gè)拆分方法,有效降低了數(shù)據(jù)組的entropy,降低值的數(shù)字結(jié)果為0.37。

舉例2(按居住屬性分組):對(duì)同樣的·和☆的一個(gè)樣本組,根據(jù)另外的屬性進(jìn)行充分組,假定他們的居住情況分為自持住宅(OWN),租賃(RENT)和其他(OTHER)這樣三個(gè)組,并有如下的entropy特征:

entropy(parent)≈0.99

entropy(Residence=OWN)≈0.54

entropy(Residence=RENT)≈0.97

entropy(Residence=OTHER)≈0.98

IG≈0.13

可以看出通過居住屬性進(jìn)行分類,IG也得到了一定程度的提升,但是提升的效果不如案例1中按照balance(信用卡賬單欠款數(shù))進(jìn)行分組,原因是OWN組雖然提高了purity,但是RENT組和OTHER組這兩個(gè)子組并沒有提升purity,他們的purity依然很差。這樣,在這組樣本數(shù)據(jù)中,居住屬性的分組方式不如按balance分組更加有信息提供的價(jià)值。

綜上總結(jié)出,在為了分類問題進(jìn)行監(jiān)督分割創(chuàng)建時(shí),我們并不需要完全的數(shù)據(jù)purity,而是需要更關(guān)注分組后的IG。

Numeric variables

數(shù)字化的樣本數(shù)據(jù),可以被一個(gè)或多個(gè)點(diǎn)進(jìn)行分段式的分割,例如balance數(shù)據(jù)可以被分成2個(gè)或多個(gè)范圍。此處IG可以用來衡量這個(gè)分段結(jié)果的segmentation評(píng)分,我們依然可以用IG來計(jì)算,每個(gè)分段方式的顯著性并通過IG值進(jìn)行比較。

注:IG僅關(guān)注于每個(gè)segmentation(分組方式)下的entropy比較,并不能表示分組后的每個(gè)子組的獨(dú)立purity情況。

一個(gè)衡量單組數(shù)值型樣本數(shù)據(jù)的impurity情況的衡量指標(biāo)是方差(variance)。

如果組內(nèi)值都一樣,那么方差為0,如果組內(nèi)值相差比較大,那么方差的值就會(huì)較大。可以對(duì)parent數(shù)據(jù)和children數(shù)據(jù)組的方差進(jìn)行對(duì)比,衡量IG。

Example:Attribute Selection with Information Gain

通過選取特定的分類方式(attribute)可以精簡(jiǎn)需要分析的數(shù)據(jù)量。

案例樣本數(shù)據(jù):此處的樣本數(shù)據(jù)為5644種蘑菇,目標(biāo)變量是是否能吃(edible),將這5644條數(shù)據(jù)作為訓(xùn)練集,其中2156種毒蘑菇和3488種可以吃的蘑菇,這些蘑菇有23個(gè)特征類別,每個(gè)特征下面的特征值從2到N多個(gè),可以利用IG值的方法,來從這23個(gè)特征中,挑選出和edible的目標(biāo)變量相關(guān)性最高的特征。

全數(shù)據(jù)的entropy基于2156個(gè)有毒和3488個(gè)可吃,entropy=0.96。

entropy圖形化,全量樣本數(shù)據(jù)的entropy圖形是一個(gè)在坐標(biāo)系1*1正方形內(nèi),y=0.96的一個(gè)橫線切開的兩部分,下方為0.96的面積即entropy,上方為purity的面積0.04。

entropy圖形化-分組(children):使用GILL-COLOR進(jìn)行分組后的entropy展示,如下圖3-7:


圖3-7:children分類(基于GILL-GOLOR)下的entropy的圖形化表示(y=yellow、u=purple、n=brown、and so on)

每個(gè)長(zhǎng)方形的寬度表示該特征的樣本占總樣本數(shù)據(jù)的比例(或可描述成有利場(chǎng)數(shù)量),高度是該子樣本束的entropy??梢钥闯鯣ILL-COLOR子類降低了entropy值。

此處還列舉了另幾個(gè)features的例子進(jìn)行說明,包括SPORE-PRINT-COLOR(孢子印花顏色)、ODOR(氣味),在此分類下entropy也被有效降低,與GILL-COLOR類似。

并且可以看到,通過ODOR進(jìn)行分類得到了最大的IG值(0.96-0.1=0.86,IG為0.86),即最多地降低了數(shù)據(jù)的entropy,這表示通過氣味辨別蘑菇是否有毒或可食用是一個(gè)相對(duì)更加準(zhǔn)確的判斷方法。如果只選擇一個(gè)特征來判斷蘑菇是否有毒,那你應(yīng)該選氣味,如果要通過多特征進(jìn)行鑒定,那么你應(yīng)該從ODOR入手開始,再加入其它的因素進(jìn)行建模分析。

Supervised Segmentation with Tree-Structured Models

本章節(jié)主要講解classification tree(分類樹)或者叫decision tree(決策樹)的方法,用于通過多因素進(jìn)行數(shù)據(jù)分割segmentation,概覽可參考下圖:


圖3-10 決策樹分類法,Leaf表示單個(gè)segmentation,nodes是不同的用于進(jìn)行分類的特征

write-off = 沖銷,非葉片的節(jié)點(diǎn)通常被叫做決策節(jié)點(diǎn),

舉例說明:通過3-1中的名為Claudio的人的特征來舉例說明,他的特征情況為:Balance=115k,Employed=No,Age=40。參考上圖3-10的決策樹決策過程,先通過employed判斷,結(jié)果是No,選右分支;下一個(gè)是balance,值為115k大于50k,再次選右分支;下一個(gè)是Age,值為40小于45所以選擇左側(cè)分支,這樣就來到了一個(gè)?Not Write-off?的類別,即沒有不符特征的一個(gè)節(jié)點(diǎn),或者說我們把Claudio分類到了一個(gè)?未被沖銷(not write-off)?的特征值為(Employed=No,Balance=115k,Age<45)的一個(gè)分組segment。(此處用于決策哪部分人是確實(shí)沒有信用卡還款能力者,這部分人的欠款將被write-off即當(dāng)做壞賬被注銷,從決策樹可以看出,失業(yè)的欠款大于等于50k并且年齡大于等于45歲的才會(huì)被注銷欠款)這個(gè)模型用于預(yù)測(cè),誰(shuí)的欠款后面將不用還了,銀行會(huì)當(dāng)做壞賬處理掉。

名詞解釋:Write-Off(壞賬注銷)

A “write-off” on the other hand is when a creditor?forgives?a portion of the balance that is legitimately owed. For example, if you owe $15,000 and a creditor agrees to settle the account for $0.50 on the dollar, they write off $7,500.

區(qū)別于charge-off,charge-off只是將欠款進(jìn)行類別名稱的改變,但是并未被沖銷,仍需全額還錢。(媽的英語(yǔ)生僻詞太多了)

接下來開始正式的多因素建模過程:


圖3-14 決策樹的分類全過程(將信用卡欠款人員特征點(diǎn)圖形化,如長(zhǎng)方身體和橢圓身體等)

分類樹就是一個(gè)切分和適配的遞歸過程,整個(gè)過程的目標(biāo)點(diǎn)是所有的分組結(jié)果都是完全pure的組或者已經(jīng)沒有更多的feature用來做拆分。關(guān)于如何在完全pure或用完feature之前停止分類樹遞歸過程并得到合適的結(jié)果,將在第五章討論。

Visualizing Segmentations(可視化分割)

可視化分割指將每個(gè)features當(dāng)做一個(gè)坐標(biāo)軸,通過坐標(biāo)軸劃線對(duì)數(shù)據(jù)進(jìn)行分割的方法,遵循決策樹的分類,但是每個(gè)可分割點(diǎn)都需要把同一個(gè)因素進(jìn)行全項(xiàng)考慮進(jìn)去的分割,詳見下圖:


圖3-15 分類樹及劃分方法(partitions)將樣本空間分割開。黑色點(diǎn)表示write-off的樣本,加號(hào)表示non-write-off的樣本。背景圖片表示決策樹葉片對(duì)樣本區(qū)間的劃分結(jié)果。

此案例為根據(jù)決策樹,將決策結(jié)果在二維平面上進(jìn)行直觀的可視化展示,將樣本點(diǎn)在不同的segment當(dāng)中進(jìn)行展示,圖形化展示對(duì)應(yīng)關(guān)系。

Trees as Set of Rules(決策樹和規(guī)則集)

規(guī)則集:沿著決策樹,從樹根一路向下的所有決策條件通過AND連接的一個(gè)條件交集。

例如圖3-15中最左側(cè)的路徑的規(guī)則集可表示為:

IF (Balance<50k) AND (Age<50) THEN Class=Write-off

用同樣的方式對(duì)每個(gè)終端葉節(jié)點(diǎn)統(tǒng)計(jì)其條件路徑,圖3-15中包含其他3個(gè)規(guī)則集(共4個(gè)規(guī)則集,與葉子節(jié)點(diǎn)數(shù)目一致)。

在這個(gè)例子中,決策樹和規(guī)則集兩種表示方法都簡(jiǎn)單且易于理解,當(dāng)數(shù)據(jù)規(guī)模擴(kuò)大時(shí),有些人會(huì)偏好使用決策樹,有些人會(huì)偏好使用規(guī)則集,進(jìn)行同樣的分類方法的表達(dá)。

Probability Estimation(概率預(yù)測(cè))

此處主要講通過決策樹進(jìn)行概率預(yù)測(cè)時(shí)的過擬合矯正,矯正方法為使用拉普拉斯修正(Laplace correction)方法:

p(c)=\frac{n+1}{n+m+2}

公式中,n為類別c(類別c的決策樹葉子節(jié)點(diǎn))中的樣本數(shù)量,m為不屬于類別c的樣本數(shù)量,通過這個(gè)修正公式來矯正c發(fā)生的概率。(補(bǔ)充說明,當(dāng)n=2,m=0時(shí),p(c)=0.75;當(dāng)n=20,m=0時(shí),p(c)=21/22,可見當(dāng)樣本量增加時(shí),拉普拉斯修正的概率影響在減小,故可通過拉普拉斯修正來處理樣本量過小導(dǎo)致的偏差)

過擬合(overfitting):基于決策樹進(jìn)行概率評(píng)估時(shí),當(dāng)總樣本數(shù)量過小時(shí),通過決策樹很可能對(duì)某個(gè)葉子節(jié)點(diǎn)概率評(píng)估到100%或接近100%,產(chǎn)生偏離實(shí)際值的情況,這種情況本章叫做過擬合,后續(xù)章節(jié)會(huì)更詳細(xì)進(jìn)行定義。

Example : Addressing(考慮、處理問題) the Churn Problem with Tree Induction

此處通過20000個(gè)電信用戶的特征數(shù)據(jù)(包含10個(gè)feature和1個(gè)target variable-是否churn)對(duì)churn問題進(jìn)行預(yù)測(cè)。


圖3-17 churn 特征的IG值排名


圖3-18 此圖是使用churn數(shù)據(jù)通過分類樹學(xué)習(xí)的結(jié)果。長(zhǎng)方形葉子表示總體樣本拆分后的分割,由從根節(jié)點(diǎn)到當(dāng)前葉子的整條路徑?jīng)Q定。每個(gè)葉子節(jié)點(diǎn)的概率也根據(jù)各分割(segment)從根節(jié)點(diǎn)的整條路徑?jīng)Q定;括號(hào)內(nèi)表示由0.5的可能性開始,計(jì)算出的這個(gè)葉子節(jié)點(diǎn)的事件分類。

1. 對(duì)每個(gè)獨(dú)立特征進(jìn)行IG值的計(jì)算,得出各自的information gain值;

2. 將IG最高的house value作為決策樹的根節(jié)點(diǎn)開始執(zhí)行決策樹;

3. 左側(cè)第二節(jié)點(diǎn)為IG第二的OVERAGE,但右側(cè)第二節(jié)點(diǎn)就不是OVERAGE了,而是IG排名第五的INCOME,原因是啥呢?

4. 原因在這里?。?!圖3-17中的IG排名為對(duì)比全量樣本時(shí)的排名,但是在描繪決策樹時(shí),需要根據(jù)已經(jīng)上樹的節(jié)點(diǎn)以外的節(jié)點(diǎn),對(duì)剩余的樣板進(jìn)行重新的IG值的排行,從而選出最高的IG值的feature,從而搭建下一個(gè)決策節(jié)點(diǎn)。也就是一個(gè)全量樣本和剩余樣本的計(jì)算差異導(dǎo)致。

5. 最終形成的決策樹概率預(yù)測(cè)結(jié)果如圖3-18所示。

通常情況下,根據(jù)總樣本量的情況,會(huì)拿出一半的數(shù)據(jù)進(jìn)行學(xué)習(xí),即用一半的數(shù)據(jù)搭建如圖3-18所示的決策樹,然后再用剩下的一半的數(shù)據(jù)來驗(yàn)證這個(gè)模型預(yù)測(cè)的準(zhǔn)確性,通過實(shí)際數(shù)據(jù)可知,上面模型的準(zhǔn)確性為73%,這帶來了兩個(gè)問題:

1.? 你是否相信這個(gè)數(shù)值,如果將這個(gè)決策樹用在同樣本空間的另外20000個(gè)元素做預(yù)測(cè)時(shí),仍然可以得到73%的準(zhǔn)確率嗎?

2. 如果你信任這個(gè)數(shù)值,那代表這是一個(gè)好的模型嗎?換句話說,73%準(zhǔn)確率的模型值得使用嗎?

我們會(huì)在第七章和第八章來回顧這些問題,這兩個(gè)章節(jié)將深入談及模型的評(píng)價(jià)。

Summary

沒啥新內(nèi)容但是留了一個(gè)問題,當(dāng)對(duì)于一個(gè)回歸問題使用決策樹模型時(shí),哪些點(diǎn)需要做修改,相對(duì)于分類問題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容