91中文字幕,日本一道免费专区别吗

Fundamental concepts：visualization of model performance under various kinds of uncertainty（在諸多不確定因素下觀察模型表現(xiàn)）；further consideration of what is desired from data mining results（深入考慮我們要從數(shù)據(jù)分析結(jié)果中得到什么）.

Exemplary techniques：profit curves（利潤曲線）；cumulative response curves（累積響應曲線）；lift curves（lift曲線）；ROC curves（ROC曲線）。

圖像比數(shù)字更能讓老板開心，所以這個章節(jié)一起來看看怎么樣用圖像表現(xiàn)模型。

Ranking Instead of Classifying（用排名代替分類）?

圖8-1 通過得分和閾值來羅列所有的樣本。橫線就是閾值，通過這些閾值進行劃分，閾值上方的就是positives，下方是negatives。

可以看到隨著閾值下降，每個元素的混淆矩陣中的數(shù)字都在從N行向Y行運送，每個閾值都是一個不同的使用混淆矩陣來區(qū)分樣本的分類器。

Profit Curves（利潤曲線）

圖8-2 三個分類器下的利潤曲線。隨著實施用戶的增加的利潤結(jié)果。

圖8-2里面有?三個模型?，推廣一個新客戶的成本是￥5，轉(zhuǎn)化成功就賺￥9，利潤是￥4，然后把所有的用戶按照這三個模型分別把接受度從高到低排列，當推廣的用戶逐漸增多時的利潤曲線就是圖8-2中的結(jié)果。

圖8-2中最左側(cè)和最右側(cè)4條線是在一個點上的，說明在極端情況時（0推廣和全推廣）的情況下利潤是一致的，中間的起伏不同是因為不同的模型下，對不同的用戶進行了不一樣的評分和排列，實際上每個用戶的混淆矩陣在跨模型時仍然是保持一致的。

從圖8-2可以發(fā)現(xiàn)，分類器2可以得到最大的利潤值￥200，當預算不限的情況下，最好選擇分類器2，這樣可以得到￥200利潤，但需要推廣50個最可能轉(zhuǎn)化的用戶，推廣成本也最高。

當你被預算束縛的時候，比如你有一共100000用戶，和￥40000推廣經(jīng)費，單位推廣成本￥5，那么可以推廣8000個用戶，此時就需要在圖8-2的8%的位置找到利潤最高的分類器，此時就需要選擇分類器1得到最大利潤。

ROC Graphs and Curves（ROC圖和曲線）

Receiver Operating Characteristics（ROC）graph：接受者操作特征曲線。

ROC曲線就是一個二維圖標，false positive比率是x軸，true positive比率是y軸。

圖8-3 ROC空間和5種分類器（A-E）和他們的表現(xiàn)

ROC圖表有以下幾個特殊點：

（0，0）從來不做positive歸類的一個分類器；

（1，1）全都歸類為positive的分類器；

（0，1）完美的分類器，所有預測均準確無誤；

（0，0）到（1，1）的連線表示隨機分類。

圖8-4 ROC空間中的每一個點都表示了一個混淆矩陣。

圖8-5 從測試集來構(gòu)建ROC曲線的過程，從底部（全分類為N）開始，向上逐個投射，逐漸增加了預測為Y的樣本的數(shù)量，每個混淆矩陣都表示了一個ROC空間中的（FP,TP）數(shù)對。

The Area Under the ROC Curves（AUC）（ROC曲線下方的區(qū)域-AUC）

AUC等同于Mann-Whitney-Wilcoxon measure（Mann-Whitney-Wilcoxon檢驗）或者Gini Coefficient（基尼系數(shù)），兩者的相同點是都計算了，隨機挑選一個positive樣本，它的排名是在一個隨機挑選的negative樣本的上方的。

AUC（Area Under Curve）被定義為ROC曲線下與坐標軸圍成的面積，顯然這個面積的數(shù)值不會大于1。又由于ROC曲線一般都處于y=x這條直線的上方，所以AUC的取值范圍在0.5和1之間。AUC越接近1.0，檢測方法真實性越高;等于0.5時，則真實性最低，無應用價值。（以上描述來自百度百科）

Cumulative Response and Lift Curves（累積反應和升力曲線）

這個小節(jié)考慮到視覺化是需要讓steakholder懂數(shù)據(jù)結(jié)果，從而使用更直觀的一些圖形來表述數(shù)據(jù)分析結(jié)果，而非使用更全面的ROC曲線。

cumulative response curve（累積響應曲線）和ROC曲線緊密相關(guān)。但是改變了x軸和y軸的含義，cumulative response curves的y軸是TP（tp rate，y axis）當做y軸，把受測樣本的比例當做x周，如下圖所示：

圖8-6 4個樣例分類器，和他們的累積響應曲線

橫軸表示測試的樣本比例，縱軸表示被正確判斷為positive的樣本比例，對角線（圖8-6中的實線）的含義是固定分類為positive時的分類器表現(xiàn)（即當測定樣本比例為20%時，正確分類到positive的比率應該也是20%），故一切在對角線上方的分類器曲線，都是對隨機判斷提供了一些更有利信息的模型（即，在測定樣本比例為20%時，正確判斷positive的比例是高于20%的）。

小字部分：有時候累積響應曲線也被叫做升力曲線，因為可以通過這個線相比隨機模型提升了多少來判斷這個分類器模型的好壞，但本書中仍叫它累積響應曲線，因為升力曲線（lift curve）有其他的用途。

lift curves（升力曲線）的定義是在cumulative response curve的每一個x點上，把Y值轉(zhuǎn)化為累計相應曲線的Y值除以對角線（y=x）的商，所以在升力曲線中，這個對角線變成了一個y=1的水平橫線，如下圖：

圖8-7 4個圖8-6中的分類器（A-D）和他們各自的升力曲線（lift curves）

lift curves和cumulative response curves使用的時候要注意，如果positive元素的占比未知或在測試數(shù)據(jù)中未被精確表述時，不要使用這兩個曲線。這兩個曲線的使用有一個假設(shè)的前提條件是測試集中的positive占比和全量樣本中的占比是一致的。