2018-07-17 ROC和AUC

前言

即使是二分分類任務(wù),多數(shù)機器學(xué)習(xí)模型也并非輸出0或1這樣的整數(shù),而是產(chǎn)生一個概率值(一般在0-1之間)。然后設(shè)置一個分類閾值(threshold),當(dāng)概率值大于threshold,判作正例。否則,為反例。
另一種直觀的方法是,根據(jù)這個產(chǎn)生的概率值,從大到小將樣本排序。從中選擇一點為截斷點(cut point),截斷點以上判作正例,截斷點以下判作反例。
這個截斷點的設(shè)置也有不同的策略,當(dāng)更看重Precision查準率時,可以將截斷點選在靠前靠上的位置。當(dāng)更看重Recall時,就將截斷點設(shè)置在靠后的位置。
排序質(zhì)量的好壞(其實就是模型預(yù)測的概率值的好壞),將影響“期望泛化性能”的好壞。

ROC

ROC全稱是“受試者工作特征”(Receiver Operating Characteristic)曲線。ROC曲線的橫軸是真正例率(True Positive Rate,TPR),縱軸是假正例率(False Positive Rate,FPR)。
兩者的定義為:
TPR=\frac{TP}{TP+FN}
FPR=\frac{FP}{TN+FP}
可以看出,TP+FP為截斷點以上的樣本。當(dāng)然,我們希望TPR越大,同時FPR越小。即坐標(biāo)軸的左上角(1,0)位置為理想模型。
PS:把截斷點從排序的樣本序列0位置開始,一直到最后,每個位置求出TPR和FPR,得到坐標(biāo)點,可畫出ROC曲線

AUC

AUC是指ROC曲線以下的面積,即Area Under ROC Curve。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容