前言
即使是二分分類任務(wù),多數(shù)機器學(xué)習(xí)模型也并非輸出0或1這樣的整數(shù),而是產(chǎn)生一個概率值(一般在0-1之間)。然后設(shè)置一個分類閾值(threshold),當(dāng)概率值大于threshold,判作正例。否則,為反例。
另一種直觀的方法是,根據(jù)這個產(chǎn)生的概率值,從大到小將樣本排序。從中選擇一點為截斷點(cut point),截斷點以上判作正例,截斷點以下判作反例。
這個截斷點的設(shè)置也有不同的策略,當(dāng)更看重Precision查準率時,可以將截斷點選在靠前靠上的位置。當(dāng)更看重Recall時,就將截斷點設(shè)置在靠后的位置。
排序質(zhì)量的好壞(其實就是模型預(yù)測的概率值的好壞),將影響“期望泛化性能”的好壞。
ROC
ROC全稱是“受試者工作特征”(Receiver Operating Characteristic)曲線。ROC曲線的橫軸是真正例率(True Positive Rate,TPR),縱軸是假正例率(False Positive Rate,FPR)。
兩者的定義為:
可以看出,TP+FP為截斷點以上的樣本。當(dāng)然,我們希望TPR越大,同時FPR越小。即坐標(biāo)軸的左上角(1,0)位置為理想模型。
PS:把截斷點從排序的樣本序列0位置開始,一直到最后,每個位置求出TPR和FPR,得到坐標(biāo)點,可畫出ROC曲線
AUC
AUC是指ROC曲線以下的面積,即Area Under ROC Curve。