From Correlation to Supervised Segmentation

基礎(chǔ)概念：Identifying informative attributes; Segmenting data by progressive attribute selection.（定義信息化特征，通過程序化的特征選擇進(jìn)行數(shù)據(jù)分割） --本章關(guān)注模型預(yù)測(cè)（predictive modeling）

從對(duì)數(shù)據(jù)分組（分割）入手。信息（information）是降低某件事情不確定性的總量，僅是降低，但通常不會(huì)將事情變?yōu)榇_定事件。

Models, Induction, and Prediction（模型、歸納和預(yù)測(cè)）

此處對(duì)建模進(jìn)行了舉例說明：將實(shí)地繪制成地圖時(shí)，實(shí)地的絕大部分信息都被忽略，只有道路或其他關(guān)鍵信息進(jìn)行收集和呈現(xiàn)，數(shù)據(jù)建模同理。

這里又提到了兩個(gè)大的類型：classification models（分類模型）和regression models（回歸模型），一個(gè)關(guān)注分組、一個(gè)關(guān)注數(shù)值。

首先進(jìn)行描述模型，即關(guān)潛在的注現(xiàn)象和過程，還不包括數(shù)字化的預(yù)測(cè)值。

術(shù)語(yǔ)：監(jiān)督學(xué)習(xí)是一種建模方式，主要過程為，通過將已知各變量（attributes or features）作為參數(shù)，帶入特定函數(shù)式（functions），得到一個(gè)預(yù)先設(shè)定的變量（即目標(biāo)變量），通過目標(biāo)變量（target variable）來反應(yīng)預(yù)測(cè)結(jié)果。

創(chuàng)造模型的過程通常被稱為模型歸納，從數(shù)據(jù)創(chuàng)造模型的過程也叫做歸納算法（induction algorithm）或?qū)W習(xí)（learner）。

術(shù)語(yǔ)：induction（歸納） and deduction（推演），推演是通過某個(gè)特性規(guī)則，對(duì)事件進(jìn)行預(yù)測(cè)，過程與歸納相反。

Supervised Segmentation

小節(jié)目標(biāo)：我們?nèi)绾翁暨x一個(gè)或多個(gè)變量，來用于最好地將樣本數(shù)據(jù)分割成多個(gè)類型分組，以便于找到目標(biāo)變量（target variable of interest）。

舉例（幫助理解）：在電信用戶攜號(hào)轉(zhuǎn)網(wǎng)（churn）案例中“中等年齡的專家，在紐約居住信用卡欠款（balance）在平均水平的人，有5%的幾率攜號(hào)轉(zhuǎn)網(wǎng)”，此處“中等年齡的專家，在紐約居住欠款在平均水平的人”是分組定義（definition of the segment）而“有5%的幾率攜號(hào)轉(zhuǎn)網(wǎng)”是目標(biāo)變量分組的預(yù)測(cè)值（predicted value of the target variable for the segment）。

Selecting Informative? Attributes

Pure：同組中所有元素的某個(gè)特征，對(duì)于目標(biāo)變量都是一致的情況；

Impure：同組中，至少有一個(gè)元素的特征值，對(duì)于目標(biāo)變量，與其他的元素是不同的情況。

一些并發(fā)癥or復(fù)雜的情況：

1. 元素特征并不能完美匹配分組，即當(dāng)某一個(gè)分組偶爾變?yōu)閜ure分組時(shí)，其他的分組也很難基于這個(gè)特征變?yōu)閜ure分組；

2. 當(dāng)某個(gè)特征可以將數(shù)據(jù)分割出一個(gè)pure分組時(shí)，這個(gè)特征會(huì)比其他的，不能完美制造pure分組的特征，更能夠降低整體數(shù)據(jù)的impurity嗎；

3. 并非所有特征都是用于二元區(qū)分?jǐn)?shù)據(jù)的，更可能包含三元甚至多元分組的特征；

4. 某些特征值是數(shù)字值形式，針對(duì)每個(gè)值結(jié)果進(jìn)行分組拆分是否有意義？

entropy：熵，用來衡量分組后的數(shù)據(jù)impurity值。

Entropy公式定義（公式3-1）：

$entropy = -p_{1} log(p_{1}) - p_{2}log(p_{2}) - ...$

公式解釋：每個(gè) $p_{i}$ 是特征 $i$ 在數(shù)據(jù)集中出現(xiàn)的概率，范圍從0（沒有元素包含特征 $i$ ）到1（所有元素都含有特征 $i$ ），同時(shí)這也表示，至少會(huì)有2種或以上種類的數(shù)據(jù)特征可用來統(tǒng)計(jì)。

以一個(gè)+&-的二元分布來舉例說明entropy的概念：

$p_{+} =1-p_{-}$

故，當(dāng) $p_{+}$ 或 $p_{-}$ 等于1時(shí)，entropy = 0 為熵值最小，所有元素特征一致；

當(dāng) $p_{+} =p_{-} =0.5$ 時(shí)，entropy = 1 為熵值最大，所有元素一半為+特征，一半為-特征；

整個(gè)情況下，隨著 $p_{+}$ 的從0到1的變化，entropy呈拋物線曲線的方式在坐標(biāo)軸上呈現(xiàn)。

名詞簡(jiǎn)稱：information gain（IG）表示將數(shù)據(jù)進(jìn)行重新分組后，purity的變化的量化考量結(jié)果。

Information gain（公式3-2）

$IG(parent，children)= entropy(parent)-[p(c_{1})\times entropy(c_{1})+p(c_{2})\times entropy(c_{2})+\cdot \cdot \cdot ]$

舉例1（按balance-賬單欠款數(shù)分組，＜50k或≥50k）：這里找了·和☆的例子，來說明對(duì)樣本數(shù)據(jù)進(jìn)行重新分割（segment）后，purity的變化（從parent到children），原始數(shù)據(jù)（parent）16個(gè)·&14個(gè)☆，entropy=0.99，很impure，但是將這30個(gè)數(shù)據(jù)拆成2組，組1（＜50k）有12個(gè)點(diǎn)1個(gè)☆，組2（≥50k）有4個(gè)點(diǎn)13個(gè) ☆，此時(shí)組1entropy=0.39，組2entropy=0.79，結(jié)合公式3-2的表述，IG=0.99-[0.43x0.39+0.57x0.79]≈0.37，所以這個(gè)拆分方法，有效降低了數(shù)據(jù)組的entropy，降低值的數(shù)字結(jié)果為0.37。

舉例2（按居住屬性分組）：對(duì)同樣的·和☆的一個(gè)樣本組，根據(jù)另外的屬性進(jìn)行充分組，假定他們的居住情況分為自持住宅（OWN），租賃（RENT）和其他（OTHER）這樣三個(gè)組，并有如下的entropy特征：

entropy（parent）≈0.99

entropy（Residence=OWN）≈0.54

entropy（Residence=RENT）≈0.97

entropy（Residence=OTHER）≈0.98

IG≈0.13

可以看出通過居住屬性進(jìn)行分類，IG也得到了一定程度的提升，但是提升的效果不如案例1中按照balance（信用卡賬單欠款數(shù)）進(jìn)行分組，原因是OWN組雖然提高了purity，但是RENT組和OTHER組這兩個(gè)子組并沒有提升purity，他們的purity依然很差。這樣，在這組樣本數(shù)據(jù)中，居住屬性的分組方式不如按balance分組更加有信息提供的價(jià)值。

綜上總結(jié)出，在為了分類問題進(jìn)行監(jiān)督分割創(chuàng)建時(shí)，我們并不需要完全的數(shù)據(jù)purity，而是需要更關(guān)注分組后的IG。

Numeric variables

數(shù)字化的樣本數(shù)據(jù)，可以被一個(gè)或多個(gè)點(diǎn)進(jìn)行分段式的分割，例如balance數(shù)據(jù)可以被分成2個(gè)或多個(gè)范圍。此處IG可以用來衡量這個(gè)分段結(jié)果的segmentation評(píng)分，我們依然可以用IG來計(jì)算，每個(gè)分段方式的顯著性并通過IG值進(jìn)行比較。

注：IG僅關(guān)注于每個(gè)segmentation（分組方式）下的entropy比較，并不能表示分組后的每個(gè)子組的獨(dú)立purity情況。

一個(gè)衡量單組數(shù)值型樣本數(shù)據(jù)的impurity情況的衡量指標(biāo)是方差（variance）。

如果組內(nèi)值都一樣，那么方差為0，如果組內(nèi)值相差比較大，那么方差的值就會(huì)較大。可以對(duì)parent數(shù)據(jù)和children數(shù)據(jù)組的方差進(jìn)行對(duì)比，衡量IG。

Example：Attribute Selection with Information Gain

通過選取特定的分類方式（attribute）可以精簡(jiǎn)需要分析的數(shù)據(jù)量。

案例樣本數(shù)據(jù)：此處的樣本數(shù)據(jù)為5644種蘑菇，目標(biāo)變量是是否能吃（edible），將這5644條數(shù)據(jù)作為訓(xùn)練集，其中2156種毒蘑菇和3488種可以吃的蘑菇，這些蘑菇有23個(gè)特征類別，每個(gè)特征下面的特征值從2到N多個(gè)，可以利用IG值的方法，來從這23個(gè)特征中，挑選出和edible的目標(biāo)變量相關(guān)性最高的特征。

全數(shù)據(jù)的entropy基于2156個(gè)有毒和3488個(gè)可吃，entropy=0.96。

entropy圖形化，全量樣本數(shù)據(jù)的entropy圖形是一個(gè)在坐標(biāo)系1*1正方形內(nèi)，y=0.96的一個(gè)橫線切開的兩部分，下方為0.96的面積即entropy，上方為purity的面積0.04。

entropy圖形化-分組（children）：使用GILL-COLOR進(jìn)行分組后的entropy展示，如下圖3-7：

圖3-7：children分類（基于GILL-GOLOR）下的entropy的圖形化表示（y=yellow、u=purple、n=brown、and so on）

每個(gè)長(zhǎng)方形的寬度表示該特征的樣本占總樣本數(shù)據(jù)的比例（或可描述成有利場(chǎng)數(shù)量），高度是該子樣本束的entropy?？梢钥闯鯣ILL-COLOR子類降低了entropy值。

此處還列舉了另幾個(gè)features的例子進(jìn)行說明，包括SPORE-PRINT-COLOR（孢子印花顏色）、ODOR（氣味），在此分類下entropy也被有效降低，與GILL-COLOR類似。

并且可以看到，通過ODOR進(jìn)行分類得到了最大的IG值（0.96-0.1=0.86，IG為0.86），即最多地降低了數(shù)據(jù)的entropy，這表示通過氣味辨別蘑菇是否有毒或可食用是一個(gè)相對(duì)更加準(zhǔn)確的判斷方法。如果只選擇一個(gè)特征來判斷蘑菇是否有毒，那你應(yīng)該選氣味，如果要通過多特征進(jìn)行鑒定，那么你應(yīng)該從ODOR入手開始，再加入其它的因素進(jìn)行建模分析。

Supervised Segmentation with Tree-Structured Models

本章節(jié)主要講解classification tree（分類樹）或者叫decision tree（決策樹）的方法，用于通過多因素進(jìn)行數(shù)據(jù)分割segmentation，概覽可參考下圖：

圖3-10 決策樹分類法，Leaf表示單個(gè)segmentation，nodes是不同的用于進(jìn)行分類的特征

write-off = 沖銷，非葉片的節(jié)點(diǎn)通常被叫做決策節(jié)點(diǎn)，

舉例說明：通過3-1中的名為Claudio的人的特征來舉例說明，他的特征情況為：Balance=115k，Employed=No，Age=40。參考上圖3-10的決策樹決策過程，先通過employed判斷，結(jié)果是No，選右分支；下一個(gè)是balance，值為115k大于50k，再次選右分支；下一個(gè)是Age，值為40小于45所以選擇左側(cè)分支，這樣就來到了一個(gè)?Not Write-off?的類別，即沒有不符特征的一個(gè)節(jié)點(diǎn)，或者說我們把Claudio分類到了一個(gè)?未被沖銷（not write-off）?的特征值為（Employed=No，Balance=115k，Age<45）的一個(gè)分組segment。（此處用于決策哪部分人是確實(shí)沒有信用卡還款能力者，這部分人的欠款將被write-off即當(dāng)做壞賬被注銷，從決策樹可以看出，失業(yè)的欠款大于等于50k并且年齡大于等于45歲的才會(huì)被注銷欠款）這個(gè)模型用于預(yù)測(cè)，誰(shuí)的欠款后面將不用還了，銀行會(huì)當(dāng)做壞賬處理掉。

名詞解釋：Write-Off（壞賬注銷）

A “write-off” on the other hand is when a creditor?forgives?a portion of the balance that is legitimately owed. For example, if you owe $15,000 and a creditor agrees to settle the account for $0.50 on the dollar, they write off $7,500.

區(qū)別于charge-off，charge-off只是將欠款進(jìn)行類別名稱的改變，但是并未被沖銷，仍需全額還錢。（媽的英語(yǔ)生僻詞太多了）

接下來開始正式的多因素建模過程：

圖3-14 決策樹的分類全過程（將信用卡欠款人員特征點(diǎn)圖形化，如長(zhǎng)方身體和橢圓身體等）

分類樹就是一個(gè)切分和適配的遞歸過程，整個(gè)過程的目標(biāo)點(diǎn)是所有的分組結(jié)果都是完全pure的組或者已經(jīng)沒有更多的feature用來做拆分。關(guān)于如何在完全pure或用完feature之前停止分類樹遞歸過程并得到合適的結(jié)果，將在第五章討論。

Visualizing Segmentations（可視化分割）

可視化分割指將每個(gè)features當(dāng)做一個(gè)坐標(biāo)軸，通過坐標(biāo)軸劃線對(duì)數(shù)據(jù)進(jìn)行分割的方法，遵循決策樹的分類，但是每個(gè)可分割點(diǎn)都需要把同一個(gè)因素進(jìn)行全項(xiàng)考慮進(jìn)去的分割，詳見下圖：

圖3-15 分類樹及劃分方法（partitions）將樣本空間分割開。黑色點(diǎn)表示write-off的樣本，加號(hào)表示non-write-off的樣本。背景圖片表示決策樹葉片對(duì)樣本區(qū)間的劃分結(jié)果。

此案例為根據(jù)決策樹，將決策結(jié)果在二維平面上進(jìn)行直觀的可視化展示，將樣本點(diǎn)在不同的segment當(dāng)中進(jìn)行展示，圖形化展示對(duì)應(yīng)關(guān)系。

Trees as Set of Rules（決策樹和規(guī)則集）

規(guī)則集：沿著決策樹，從樹根一路向下的所有決策條件通過AND連接的一個(gè)條件交集。

例如圖3-15中最左側(cè)的路徑的規(guī)則集可表示為：

IF (Balance<50k) AND (Age<50) THEN Class=Write-off

用同樣的方式對(duì)每個(gè)終端葉節(jié)點(diǎn)統(tǒng)計(jì)其條件路徑，圖3-15中包含其他3個(gè)規(guī)則集（共4個(gè)規(guī)則集，與葉子節(jié)點(diǎn)數(shù)目一致）。

在這個(gè)例子中，決策樹和規(guī)則集兩種表示方法都簡(jiǎn)單且易于理解，當(dāng)數(shù)據(jù)規(guī)模擴(kuò)大時(shí)，有些人會(huì)偏好使用決策樹，有些人會(huì)偏好使用規(guī)則集，進(jìn)行同樣的分類方法的表達(dá)。

Probability Estimation（概率預(yù)測(cè)）

此處主要講通過決策樹進(jìn)行概率預(yù)測(cè)時(shí)的過擬合矯正，矯正方法為使用拉普拉斯修正（Laplace correction）方法：

$p(c)=\frac{n+1}{n+m+2}$

公式中，n為類別c（類別c的決策樹葉子節(jié)點(diǎn)）中的樣本數(shù)量，m為不屬于類別c的樣本數(shù)量，通過這個(gè)修正公式來矯正c發(fā)生的概率。（補(bǔ)充說明，當(dāng)n=2，m=0時(shí)，p（c）=0.75；當(dāng)n=20，m=0時(shí)，p（c）=21/22，可見當(dāng)樣本量增加時(shí)，拉普拉斯修正的概率影響在減小，故可通過拉普拉斯修正來處理樣本量過小導(dǎo)致的偏差）

過擬合（overfitting）：基于決策樹進(jìn)行概率評(píng)估時(shí)，當(dāng)總樣本數(shù)量過小時(shí)，通過決策樹很可能對(duì)某個(gè)葉子節(jié)點(diǎn)概率評(píng)估到100%或接近100%，產(chǎn)生偏離實(shí)際值的情況，這種情況本章叫做過擬合，后續(xù)章節(jié)會(huì)更詳細(xì)進(jìn)行定義。

Example : Addressing（考慮、處理問題） the Churn Problem with Tree Induction

此處通過20000個(gè)電信用戶的特征數(shù)據(jù)（包含10個(gè)feature和1個(gè)target variable-是否churn）對(duì)churn問題進(jìn)行預(yù)測(cè)。

圖3-17 churn 特征的IG值排名

圖3-18 此圖是使用churn數(shù)據(jù)通過分類樹學(xué)習(xí)的結(jié)果。長(zhǎng)方形葉子表示總體樣本拆分后的分割，由從根節(jié)點(diǎn)到當(dāng)前葉子的整條路徑?jīng)Q定。每個(gè)葉子節(jié)點(diǎn)的概率也根據(jù)各分割（segment）從根節(jié)點(diǎn)的整條路徑?jīng)Q定；括號(hào)內(nèi)表示由0.5的可能性開始，計(jì)算出的這個(gè)葉子節(jié)點(diǎn)的事件分類。

1. 對(duì)每個(gè)獨(dú)立特征進(jìn)行IG值的計(jì)算，得出各自的information gain值；

2. 將IG最高的house value作為決策樹的根節(jié)點(diǎn)開始執(zhí)行決策樹；

3. 左側(cè)第二節(jié)點(diǎn)為IG第二的OVERAGE，但右側(cè)第二節(jié)點(diǎn)就不是OVERAGE了，而是IG排名第五的INCOME，原因是啥呢？

4. 原因在這里?。?！圖3-17中的IG排名為對(duì)比全量樣本時(shí)的排名，但是在描繪決策樹時(shí)，需要根據(jù)已經(jīng)上樹的節(jié)點(diǎn)以外的節(jié)點(diǎn)，對(duì)剩余的樣板進(jìn)行重新的IG值的排行，從而選出最高的IG值的feature，從而搭建下一個(gè)決策節(jié)點(diǎn)。也就是一個(gè)全量樣本和剩余樣本的計(jì)算差異導(dǎo)致。

5. 最終形成的決策樹概率預(yù)測(cè)結(jié)果如圖3-18所示。

通常情況下，根據(jù)總樣本量的情況，會(huì)拿出一半的數(shù)據(jù)進(jìn)行學(xué)習(xí)，即用一半的數(shù)據(jù)搭建如圖3-18所示的決策樹，然后再用剩下的一半的數(shù)據(jù)來驗(yàn)證這個(gè)模型預(yù)測(cè)的準(zhǔn)確性，通過實(shí)際數(shù)據(jù)可知，上面模型的準(zhǔn)確性為73%，這帶來了兩個(gè)問題：

1.? 你是否相信這個(gè)數(shù)值，如果將這個(gè)決策樹用在同樣本空間的另外20000個(gè)元素做預(yù)測(cè)時(shí)，仍然可以得到73%的準(zhǔn)確率嗎？

2. 如果你信任這個(gè)數(shù)值，那代表這是一個(gè)好的模型嗎？換句話說，73%準(zhǔn)確率的模型值得使用嗎？

我們會(huì)在第七章和第八章來回顧這些問題，這兩個(gè)章節(jié)將深入談及模型的評(píng)價(jià)。

Summary

沒啥新內(nèi)容但是留了一個(gè)問題，當(dāng)對(duì)于一個(gè)回歸問題使用決策樹模型時(shí)，哪些點(diǎn)需要做修改，相對(duì)于分類問題。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

3. 預(yù)測(cè)模型的介紹：從相關(guān)性到監(jiān)督分割模型

3. 預(yù)測(cè)模型的介紹：從相關(guān)性到監(jiān)督分割模型