ROC曲線(xiàn)TPR和FPR

轉(zhuǎn)載
關(guān)于兩類(lèi)分類(lèi)問(wèn)題,原始類(lèi)為positive、negative,分類(lèi)后的類(lèi)別為p'、n'。排列組合后得到4種結(jié)果,如下圖所示:

圖1

于是我們得到四個(gè)指標(biāo),分別為:真陽(yáng)、偽陽(yáng)、偽陰、真陰。ROC空間將偽陽(yáng)性率(FPR)定義為 X 軸,真陽(yáng)性率(TPR)定義為 Y 軸。這兩個(gè)值由上面四個(gè)值計(jì)算得到,公式如下:

TPR:在所有實(shí)際為陽(yáng)性的樣本中,被正確地判斷為陽(yáng)性之比率。TPR=TP/(TP+FN)

FPR:在所有實(shí)際為陰性的樣本中,被錯(cuò)誤地判斷為陽(yáng)性之比率。FPR=FP/(FP+TN)

放在具體領(lǐng)域來(lái)理解上述兩個(gè)指標(biāo)。如在醫(yī)學(xué)診斷中,判斷有病的樣本。那么盡量把有病的揪出來(lái)是主要任務(wù),也就是第一個(gè)指標(biāo)TPR,要越高越好。而把沒(méi)病的樣本誤診為有病的,也就是第二個(gè)指標(biāo)FPR,要越低越好。不難發(fā)現(xiàn),這兩個(gè)指標(biāo)之間是相互制約的。如果某個(gè)醫(yī)生對(duì)于有病的癥狀比較敏感,稍微的小癥狀都判斷為有病,那么他的第一個(gè)指標(biāo)應(yīng)該會(huì)很高,但是第二個(gè)指標(biāo)也就相應(yīng)地變高。最極端的情況下,他把所有的樣本都看做有病,那么第一個(gè)指標(biāo)達(dá)到1,第二個(gè)指標(biāo)也為1。

2.3ROC的圖形化表示

我們以FPR為橫軸,TPR為縱軸,得到如下ROC空間:


image.png

我們可以看出:左上角的點(diǎn)(TPR=1,F(xiàn)PR=0),為完美分類(lèi),也就是這個(gè)醫(yī)生醫(yī)術(shù)高明,診斷全對(duì);點(diǎn)A(TPR>FPR),醫(yī)生A的判斷大體是正確的。中線(xiàn)上的點(diǎn)B(TPR=FPR),也就是醫(yī)生B全都是蒙的,蒙對(duì)一半,蒙錯(cuò)一半;下半平面的點(diǎn)C(TPR<FPR),這個(gè)醫(yī)生說(shuō)你有病,那么你很可能沒(méi)有病,醫(yī)生C的話(huà)我們要反著聽(tīng),為真庸醫(yī)。

上圖中一個(gè)閾值,得到一個(gè)點(diǎn)?,F(xiàn)在我們需要一個(gè)獨(dú)立于閾值的評(píng)價(jià)指標(biāo)來(lái)衡量這個(gè)醫(yī)生的醫(yī)術(shù)如何,也就是遍歷所有的閾值,得到ROC曲線(xiàn)。還是一開(kāi)始的那幅圖,假設(shè)如下就是某個(gè)醫(yī)生的診斷統(tǒng)計(jì)圖,直線(xiàn)代表閾值。我們遍歷所有的閾值,能夠在ROC平面上得到如下的ROC曲線(xiàn)。


image

曲線(xiàn)距離左上角越近,證明分類(lèi)器效果越好。


image

如上,是三條ROC曲線(xiàn),在0.23處取一條直線(xiàn)。那么,在同樣的FPR=0.23的情況下,紅色分類(lèi)器得到更高的TPR。也就表明,ROC越往上,分類(lèi)器效果越好。我們用一個(gè)標(biāo)量值A(chǔ)UC來(lái)量化他。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容