轉(zhuǎn)載
關(guān)于兩類(lèi)分類(lèi)問(wèn)題,原始類(lèi)為positive、negative,分類(lèi)后的類(lèi)別為p'、n'。排列組合后得到4種結(jié)果,如下圖所示:

于是我們得到四個(gè)指標(biāo),分別為:真陽(yáng)、偽陽(yáng)、偽陰、真陰。ROC空間將偽陽(yáng)性率(FPR)定義為 X 軸,真陽(yáng)性率(TPR)定義為 Y 軸。這兩個(gè)值由上面四個(gè)值計(jì)算得到,公式如下:
TPR:在所有實(shí)際為陽(yáng)性的樣本中,被正確地判斷為陽(yáng)性之比率。TPR=TP/(TP+FN)
FPR:在所有實(shí)際為陰性的樣本中,被錯(cuò)誤地判斷為陽(yáng)性之比率。FPR=FP/(FP+TN)
放在具體領(lǐng)域來(lái)理解上述兩個(gè)指標(biāo)。如在醫(yī)學(xué)診斷中,判斷有病的樣本。那么盡量把有病的揪出來(lái)是主要任務(wù),也就是第一個(gè)指標(biāo)TPR,要越高越好。而把沒(méi)病的樣本誤診為有病的,也就是第二個(gè)指標(biāo)FPR,要越低越好。不難發(fā)現(xiàn),這兩個(gè)指標(biāo)之間是相互制約的。如果某個(gè)醫(yī)生對(duì)于有病的癥狀比較敏感,稍微的小癥狀都判斷為有病,那么他的第一個(gè)指標(biāo)應(yīng)該會(huì)很高,但是第二個(gè)指標(biāo)也就相應(yīng)地變高。最極端的情況下,他把所有的樣本都看做有病,那么第一個(gè)指標(biāo)達(dá)到1,第二個(gè)指標(biāo)也為1。
2.3ROC的圖形化表示
我們以FPR為橫軸,TPR為縱軸,得到如下ROC空間:

我們可以看出:左上角的點(diǎn)(TPR=1,F(xiàn)PR=0),為完美分類(lèi),也就是這個(gè)醫(yī)生醫(yī)術(shù)高明,診斷全對(duì);點(diǎn)A(TPR>FPR),醫(yī)生A的判斷大體是正確的。中線(xiàn)上的點(diǎn)B(TPR=FPR),也就是醫(yī)生B全都是蒙的,蒙對(duì)一半,蒙錯(cuò)一半;下半平面的點(diǎn)C(TPR<FPR),這個(gè)醫(yī)生說(shuō)你有病,那么你很可能沒(méi)有病,醫(yī)生C的話(huà)我們要反著聽(tīng),為真庸醫(yī)。
上圖中一個(gè)閾值,得到一個(gè)點(diǎn)?,F(xiàn)在我們需要一個(gè)獨(dú)立于閾值的評(píng)價(jià)指標(biāo)來(lái)衡量這個(gè)醫(yī)生的醫(yī)術(shù)如何,也就是遍歷所有的閾值,得到ROC曲線(xiàn)。還是一開(kāi)始的那幅圖,假設(shè)如下就是某個(gè)醫(yī)生的診斷統(tǒng)計(jì)圖,直線(xiàn)代表閾值。我們遍歷所有的閾值,能夠在ROC平面上得到如下的ROC曲線(xiàn)。

曲線(xiàn)距離左上角越近,證明分類(lèi)器效果越好。

如上,是三條ROC曲線(xiàn),在0.23處取一條直線(xiàn)。那么,在同樣的FPR=0.23的情況下,紅色分類(lèi)器得到更高的TPR。也就表明,ROC越往上,分類(lèi)器效果越好。我們用一個(gè)標(biāo)量值A(chǔ)UC來(lái)量化他。