日韩高清一,国产日韩第29页,日韩欧美熟女熟视频

0. 一個例子

在分類(classification)問題的模型評估中，常用的評測指標(biāo)有以下7個：

準(zhǔn)確率(accuracy)
精確率(precision)
召回率(recall)
F1-Score
ROC曲線
P-R曲線
AUC面積

下面，通過著名的鳶尾花分類的例子來具體說明。

鳶尾花的特征有4個：

Sepal Length（花萼長度）
Sepal Width（花萼寬度）
Petal Length（花瓣長度）
Petal Width（花瓣寬度）

鳶尾花的種類有3種：

Iris Setosa（山鳶尾）
Iris Versicolour（雜色鳶尾）
Iris Virginica（維吉尼亞鳶尾）

數(shù)據(jù)集中共150條數(shù)據(jù)，每類鳶尾花有50條數(shù)據(jù)。
選擇KNN算法進(jìn)行分類（歐式距離，K=8），得到模型的分類結(jié)果如下表所示：

	實(shí)際為Iris-versicolor	實(shí)際為Iris-virginica	實(shí)際為Iris-setosa
預(yù)測為Iris-versicolor	49	4	1
預(yù)測為Iris-virginica	1	46	0
預(yù)測為Iris-setosa	0	0	49

幾個定義：

TP（True Positive，真正）：將正類預(yù)測為正類
TN（True Negative，真負(fù)）：將負(fù)類預(yù)測為負(fù)類
FP（False Positive，假正）：將負(fù)類預(yù)測為正類
FN（False Negative，假負(fù)）：將正類預(yù)測為負(fù)類

可以看出，前兩個是我們期望出現(xiàn)的情況，后兩個是期望不出現(xiàn)的情況。

1. 準(zhǔn)確率（Accuracy）

定義：正確分類的樣本數(shù)與總樣本數(shù)之比

$accuracy= \frac {TP+TN}{TP+TN+FP+FN}$

在上面的例子中，

$accuracy= \frac{49+46+49}{49+4+1+1+46+0+0+0+49}×100\%=96.00\%$

??準(zhǔn)確率的概念很好理解，就是分類正確的比例，是一個非常常用的評估指標(biāo)。但是，準(zhǔn)確率高并不代表分類算法就好，當(dāng)各個類別的樣本分布很不均勻時，即使準(zhǔn)確率達(dá)到99%也沒用。
??還是用上面的例子，如果Iris Setosa的樣本數(shù)為98，Iris Versicolour和Iris Virginica的樣本數(shù)都為1，那么，分類器只需要把結(jié)果全部置為Iris Setosa，就可以獲得98%的正確率。所以，只靠準(zhǔn)確率來評價一個模型的優(yōu)劣是不全面的。

2.精確率（Precision）

定義：預(yù)測為正類的結(jié)果中，正確個數(shù)的比例

$precision= \frac{TP}{TP+FP}$

在上面的例子中，每一行的數(shù)據(jù)可以計(jì)算一個精確率：

$precision(Iris-versicolor)=\frac {49}{49+4+1}×100\%=90.74\%$
$precision(Iris-virginica)= \frac {46}{1+46}×100\%=97.87\%$
$precision(Iris-setosa)=\frac {49}{49}×100\%=100.00\%$
精確率又稱查準(zhǔn)率，其意義是判斷模型的結(jié)果是否“找得對”。

3.召回率（Recall）

定義：實(shí)際為正類的樣本中，正確判斷為正類的比例

$recall=\frac {TP}{TP+FN}$

在上面的例子中，每一列的數(shù)據(jù)可以計(jì)算一個召回率：

$recall(Iris-versicolor)=\frac {49}{49+1}×100\%=98.00\%$
$recall(Iris-virginica)=\frac {46}{46+4}×100\%=92.00\%$
$recall(Iris-setosa)=\frac {49}{1+49}×100\%=98.00\%$
召回率又稱查全率，其意義是判斷模型的結(jié)果是否“找得全”。

4. F1-score

精確率和召回率是一對矛盾的指標(biāo)，因此需要放到一起綜合考慮。F1-score是精確率和召回率的調(diào)和平均值。

$\frac {2}{F_1}=\frac {1}{P}+\frac {1}{R}$

其中，P就是presicion，R就是recall，公式前面已給出。

故：

$F_1=\frac {2PR}{P+R}=\frac {2TP}{2TP+FP+FN}$

上式是當(dāng)精確率和召回率的權(quán)值都為1的情況，也可以加上一個不為1的權(quán)值 $\beta$ ：

$F_\beta=\frac {1}{1+\beta^2}(\frac {1}{P}+\frac {\beta^2}{R})=\frac {(1+\beta^2)PR}{\beta^2P+R}$
當(dāng) $\beta>1$ 時，召回率有更大影響；
當(dāng) $\beta<1$ 時，精確率有更大影響。