Fundamental concepts:visualization of model performance under various kinds of uncertainty(在諸多不確定因素下觀察模型表現(xiàn));further consideration of what is desired from data mining results(深入考慮我們要從數(shù)據(jù)分析結(jié)果中得到什么).
Exemplary techniques:profit curves(利潤曲線);cumulative response curves(累積響應曲線);lift curves(lift曲線);ROC curves(ROC曲線)。
圖像比數(shù)字更能讓老板開心,所以這個章節(jié)一起來看看怎么樣用圖像表現(xiàn)模型。
Ranking Instead of Classifying(用排名代替分類)?

可以看到隨著閾值下降,每個元素的混淆矩陣中的數(shù)字都在從N行向Y行運送,每個閾值都是一個不同的使用混淆矩陣來區(qū)分樣本的分類器。
Profit Curves(利潤曲線)

圖8-2里面有?三個模型?,推廣一個新客戶的成本是¥5,轉(zhuǎn)化成功就賺¥9,利潤是¥4,然后把所有的用戶按照這三個模型分別把接受度從高到低排列,當推廣的用戶逐漸增多時的利潤曲線就是圖8-2中的結(jié)果。
圖8-2中最左側(cè)和最右側(cè)4條線是在一個點上的,說明在極端情況時(0推廣和全推廣)的情況下利潤是一致的,中間的起伏不同是因為不同的模型下,對不同的用戶進行了不一樣的評分和排列,實際上每個用戶的混淆矩陣在跨模型時仍然是保持一致的。
從圖8-2可以發(fā)現(xiàn),分類器2可以得到最大的利潤值¥200,當預算不限的情況下,最好選擇分類器2,這樣可以得到¥200利潤,但需要推廣50個最可能轉(zhuǎn)化的用戶,推廣成本也最高。
當你被預算束縛的時候,比如你有一共100000用戶,和¥40000推廣經(jīng)費,單位推廣成本¥5,那么可以推廣8000個用戶,此時就需要在圖8-2的8%的位置找到利潤最高的分類器,此時就需要選擇分類器1得到最大利潤。
ROC Graphs and Curves(ROC圖和曲線)
Receiver Operating Characteristics(ROC)graph:接受者操作特征曲線。
ROC曲線就是一個二維圖標,false positive比率是x軸,true positive比率是y軸。

ROC圖表有以下幾個特殊點:
(0,0)從來不做positive歸類的一個分類器;
(1,1)全都歸類為positive的分類器;
(0,1)完美的分類器,所有預測均準確無誤;
(0,0)到(1,1)的連線表示隨機分類。


The Area Under the ROC Curves(AUC)(ROC曲線下方的區(qū)域-AUC)
AUC等同于Mann-Whitney-Wilcoxon measure(Mann-Whitney-Wilcoxon檢驗)或者Gini Coefficient(基尼系數(shù)),兩者的相同點是都計算了,隨機挑選一個positive樣本,它的排名是在一個隨機挑選的negative樣本的上方的。
AUC(Area Under Curve)被定義為ROC曲線下與坐標軸圍成的面積,顯然這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。AUC越接近1.0,檢測方法真實性越高;等于0.5時,則真實性最低,無應用價值。(以上描述來自百度百科)
Cumulative Response and Lift Curves(累積反應和升力曲線)
這個小節(jié)考慮到視覺化是需要讓steakholder懂數(shù)據(jù)結(jié)果,從而使用更直觀的一些圖形來表述數(shù)據(jù)分析結(jié)果,而非使用更全面的ROC曲線。
cumulative response curve(累積響應曲線)和ROC曲線緊密相關(guān)。但是改變了x軸和y軸的含義,cumulative response curves的y軸是TP(tp rate,y axis)當做y軸,把受測樣本的比例當做x周,如下圖所示:

橫軸表示測試的樣本比例,縱軸表示被正確判斷為positive的樣本比例,對角線(圖8-6中的實線)的含義是固定分類為positive時的分類器表現(xiàn)(即當測定樣本比例為20%時,正確分類到positive的比率應該也是20%),故一切在對角線上方的分類器曲線,都是對隨機判斷提供了一些更有利信息的模型(即,在測定樣本比例為20%時,正確判斷positive的比例是高于20%的)。
小字部分:有時候累積響應曲線也被叫做升力曲線,因為可以通過這個線相比隨機模型提升了多少來判斷這個分類器模型的好壞,但本書中仍叫它累積響應曲線,因為升力曲線(lift curve)有其他的用途。
lift curves(升力曲線)的定義是在cumulative response curve的每一個x點上,把Y值轉(zhuǎn)化為累計相應曲線的Y值除以對角線(y=x)的商,所以在升力曲線中,這個對角線變成了一個y=1的水平橫線,如下圖:

lift curves和cumulative response curves使用的時候要注意,如果positive元素的占比未知或在測試數(shù)據(jù)中未被精確表述時,不要使用這兩個曲線。這兩個曲線的使用有一個假設(shè)的前提條件是測試集中的positive占比和全量樣本中的占比是一致的。
Example:Performance Analytics for Churn Modeling(churn建模的模型表現(xiàn)分析)
這里使用電信公司數(shù)據(jù)進行了4個方法的建模及預測精度的計算,如下2個圖:



從上面表格可以看出,樸素貝葉斯模型得到了最低準確度但是有最大的AUC,將樸素貝葉斯和KNN的混淆矩陣進行對比如下2圖:


可以看到K-NN模型幾乎不會把要素分類到Y(jié)當中,換個說法就是,K-NN模型的表現(xiàn)和基礎(chǔ)概率分類器差不多,總是單向地向N的情況下分類。樸素貝葉斯雖然準確率較低,但是判斷出了更多的churners。

ROC曲線有較好的一些技術(shù)特征,但是曲度這個指標較難直觀看出來,所以將其轉(zhuǎn)化為升力曲線(lift curve)如下圖:

從圖8-10中可以看出,當測試樣本在25%以下時,決策樹的效果更好,超過25%時樸素貝葉斯效果更好,另外兩個算法的建模都表現(xiàn)較差。
所以如果只需要針對前25%或更少的用戶進行針對性宣傳時,那么使用決策樹會更好,否則建議使用樸素貝葉斯的分類方法。
知識點:combining classifiers(分類器合并)
在這里的問題上并不能簡單合并決策樹和NB,因為兩個模型對樣本的排序不同,不能采取前25%使用tree,后面的使用NB的方式,但是模型的確可以通過合并來提高表現(xiàn),這個方法叫ensembles(合奏),將在308頁介紹。
接下來把實際問題中的profit和cost也加進來,假設(shè)TP得到30收入,成本是3,單件的profit就是27。利潤曲線如下圖8-11:

修改收入為39,成本維持是3,此時每個TP提供的利潤就是36,這種情況下的利潤曲線發(fā)生了較大變化,如下圖8-12:

基于上面的這個例子,在實際應用模型時,要考慮到使用的算法、精度、AUC,以及最后實際的profit的具體數(shù)值,這樣才能在測算時得到一個最接近實際的預測,成本收入的量變會導致算法方面的質(zhì)變。
summary
這里有1推薦論文:
approximate statistical tests for comparing supervised classification learning algorithms(by Thomas Dietterich's 1998)
和1推薦書目:
evaluating learning algorithms:A Classification Perspective(Japkowicz & Shah,2011)
本章結(jié)束