8. 可視化模型的表現(xiàn)

Fundamental concepts:visualization of model performance under various kinds of uncertainty(在諸多不確定因素下觀察模型表現(xiàn));further consideration of what is desired from data mining results(深入考慮我們要從數(shù)據(jù)分析結(jié)果中得到什么).

Exemplary techniques:profit curves(利潤曲線);cumulative response curves(累積響應曲線);lift curves(lift曲線);ROC curves(ROC曲線)。

圖像比數(shù)字更能讓老板開心,所以這個章節(jié)一起來看看怎么樣用圖像表現(xiàn)模型。


Ranking Instead of Classifying(用排名代替分類)?

圖8-1 通過得分和閾值來羅列所有的樣本。橫線就是閾值,通過這些閾值進行劃分,閾值上方的就是positives,下方是negatives。

可以看到隨著閾值下降,每個元素的混淆矩陣中的數(shù)字都在從N行向Y行運送,每個閾值都是一個不同的使用混淆矩陣來區(qū)分樣本的分類器。


Profit Curves(利潤曲線)

圖8-2 三個分類器下的利潤曲線。隨著實施用戶的增加的利潤結(jié)果。

圖8-2里面有?三個模型?,推廣一個新客戶的成本是¥5,轉(zhuǎn)化成功就賺¥9,利潤是¥4,然后把所有的用戶按照這三個模型分別把接受度從高到低排列,當推廣的用戶逐漸增多時的利潤曲線就是圖8-2中的結(jié)果。

圖8-2中最左側(cè)和最右側(cè)4條線是在一個點上的,說明在極端情況時(0推廣和全推廣)的情況下利潤是一致的,中間的起伏不同是因為不同的模型下,對不同的用戶進行了不一樣的評分和排列,實際上每個用戶的混淆矩陣在跨模型時仍然是保持一致的。

從圖8-2可以發(fā)現(xiàn),分類器2可以得到最大的利潤值¥200,當預算不限的情況下,最好選擇分類器2,這樣可以得到¥200利潤,但需要推廣50個最可能轉(zhuǎn)化的用戶,推廣成本也最高。

當你被預算束縛的時候,比如你有一共100000用戶,和¥40000推廣經(jīng)費,單位推廣成本¥5,那么可以推廣8000個用戶,此時就需要在圖8-2的8%的位置找到利潤最高的分類器,此時就需要選擇分類器1得到最大利潤。


ROC Graphs and Curves(ROC圖和曲線)

Receiver Operating Characteristics(ROC)graph:接受者操作特征曲線。

ROC曲線就是一個二維圖標,false positive比率是x軸,true positive比率是y軸。

圖8-3 ROC空間和5種分類器(A-E)和他們的表現(xiàn)

ROC圖表有以下幾個特殊點:

(0,0)從來不做positive歸類的一個分類器;

(1,1)全都歸類為positive的分類器;

(0,1)完美的分類器,所有預測均準確無誤;

(0,0)到(1,1)的連線表示隨機分類。

圖8-4 ROC空間中的每一個點都表示了一個混淆矩陣。
圖8-5 從測試集來構(gòu)建ROC曲線的過程,從底部(全分類為N)開始,向上逐個投射,逐漸增加了預測為Y的樣本的數(shù)量,每個混淆矩陣都表示了一個ROC空間中的(FP,TP)數(shù)對。

The Area Under the ROC Curves(AUC)(ROC曲線下方的區(qū)域-AUC)

AUC等同于Mann-Whitney-Wilcoxon measure(Mann-Whitney-Wilcoxon檢驗)或者Gini Coefficient(基尼系數(shù)),兩者的相同點是都計算了,隨機挑選一個positive樣本,它的排名是在一個隨機挑選的negative樣本的上方的。

AUC(Area Under Curve)被定義為ROC曲線下與坐標軸圍成的面積,顯然這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。AUC越接近1.0,檢測方法真實性越高;等于0.5時,則真實性最低,無應用價值。(以上描述來自百度百科)


Cumulative Response and Lift Curves(累積反應和升力曲線)

這個小節(jié)考慮到視覺化是需要讓steakholder懂數(shù)據(jù)結(jié)果,從而使用更直觀的一些圖形來表述數(shù)據(jù)分析結(jié)果,而非使用更全面的ROC曲線。

cumulative response curve(累積響應曲線)和ROC曲線緊密相關(guān)。但是改變了x軸和y軸的含義,cumulative response curves的y軸是TP(tp rate,y axis)當做y軸,把受測樣本的比例當做x周,如下圖所示:

圖8-6 4個樣例分類器,和他們的累積響應曲線

橫軸表示測試的樣本比例,縱軸表示被正確判斷為positive的樣本比例,對角線(圖8-6中的實線)的含義是固定分類為positive時的分類器表現(xiàn)(即當測定樣本比例為20%時,正確分類到positive的比率應該也是20%),故一切在對角線上方的分類器曲線,都是對隨機判斷提供了一些更有利信息的模型(即,在測定樣本比例為20%時,正確判斷positive的比例是高于20%的)。

小字部分:有時候累積響應曲線也被叫做升力曲線,因為可以通過這個線相比隨機模型提升了多少來判斷這個分類器模型的好壞,但本書中仍叫它累積響應曲線,因為升力曲線(lift curve)有其他的用途。

lift curves(升力曲線)的定義是在cumulative response curve的每一個x點上,把Y值轉(zhuǎn)化為累計相應曲線的Y值除以對角線(y=x)的商,所以在升力曲線中,這個對角線變成了一個y=1的水平橫線,如下圖:

圖8-7 4個圖8-6中的分類器(A-D)和他們各自的升力曲線(lift curves)

lift curves和cumulative response curves使用的時候要注意,如果positive元素的占比未知或在測試數(shù)據(jù)中未被精確表述時,不要使用這兩個曲線。這兩個曲線的使用有一個假設(shè)的前提條件是測試集中的positive占比和全量樣本中的占比是一致的。


Example:Performance Analytics for Churn Modeling(churn建模的模型表現(xiàn)分析)

這里使用電信公司數(shù)據(jù)進行了4個方法的建模及預測精度的計算,如下2個圖:

表8-1 4個分類器基于churn問題的模型訓練精確度結(jié)果
表8-2 把模型進行了10-fold的交叉驗證后,訓練得到的4個分類器算法下的精確度,以及AUC值
圖8-8 基于churn數(shù)據(jù)的決策樹模型擬合曲線,訓練集逐漸增大時,測試集減小,導致過擬合顯現(xiàn)逐漸顯著,上方的4個模型中,均存在過擬合現(xiàn)象(決策樹、邏輯回歸、KNN、樸素貝葉斯)

從上面表格可以看出,樸素貝葉斯模型得到了最低準確度但是有最大的AUC,將樸素貝葉斯和KNN的混淆矩陣進行對比如下2圖:

樸素貝葉斯模型的混淆矩陣(基于churn數(shù)據(jù))
KNN模型的混淆矩陣(基于churn數(shù)據(jù))

可以看到K-NN模型幾乎不會把要素分類到Y(jié)當中,換個說法就是,K-NN模型的表現(xiàn)和基礎(chǔ)概率分類器差不多,總是單向地向N的情況下分類。樸素貝葉斯雖然準確率較低,但是判斷出了更多的churners。

圖8-9 幾個分類器(決策樹、邏輯回歸、KNN、樸素貝葉斯)在5-fold交叉驗證下建模的ROC曲線,基于churn問題的數(shù)據(jù)

ROC曲線有較好的一些技術(shù)特征,但是曲度這個指標較難直觀看出來,所以將其轉(zhuǎn)化為升力曲線(lift curve)如下圖:

圖8-10 基于churn數(shù)據(jù)的升力曲線

從圖8-10中可以看出,當測試樣本在25%以下時,決策樹的效果更好,超過25%時樸素貝葉斯效果更好,另外兩個算法的建模都表現(xiàn)較差。

所以如果只需要針對前25%或更少的用戶進行針對性宣傳時,那么使用決策樹會更好,否則建議使用樸素貝葉斯的分類方法。

知識點:combining classifiers(分類器合并)

在這里的問題上并不能簡單合并決策樹和NB,因為兩個模型對樣本的排序不同,不能采取前25%使用tree,后面的使用NB的方式,但是模型的確可以通過合并來提高表現(xiàn),這個方法叫ensembles(合奏),將在308頁介紹。

接下來把實際問題中的profit和cost也加進來,假設(shè)TP得到30收入,成本是3,單件的profit就是27。利潤曲線如下圖8-11:

圖8-11 基于churn數(shù)據(jù),4個分類器的利潤曲線,最高利潤是使用決策樹分類器,在針對top20%的用戶推廣的情況下得到的

修改收入為39,成本維持是3,此時每個TP提供的利潤就是36,這種情況下的利潤曲線發(fā)生了較大變化,如下圖8-12:

圖8-12 基于churn數(shù)據(jù)的36收入3成本(12-to-1)利潤曲線(與圖8-11對比)

基于上面的這個例子,在實際應用模型時,要考慮到使用的算法、精度、AUC,以及最后實際的profit的具體數(shù)值,這樣才能在測算時得到一個最接近實際的預測,成本收入的量變會導致算法方面的質(zhì)變。


summary

這里有1推薦論文:

approximate statistical tests for comparing supervised classification learning algorithms(by Thomas Dietterich's 1998)

和1推薦書目:

evaluating learning algorithms:A Classification Perspective(Japkowicz & Shah,2011)

本章結(jié)束

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容