機器學習評價準則
機器學習(ML),自然語言處理(NLP),資訊檢索(IR)等領域評價指標一般有如下幾點:準確率(Accuracy),精確率(Precision),召回率(Recall)和F1-Measure。同時深度學習目標檢測領域的評價指標更注重平均精確率(Mean Average Precision),召回率(Recall),以及速度(rate)。在介紹上面三個引數之前,首先介紹混淆矩陣。
~ | Positive | Negative |
---|---|---|
True | True Positive (TP) | True Negative(TN) |
False | False Positive (FP) | False Negative (FN) |
上表以二分類問題為例,有兩類預測結果Positive(正類),Negative(負類),在進行二分類時,同樣會有兩類預測結果True(正確分類,真),False(錯誤分類,假),因此會出現上表所示的四種情況,每種情況代表的含義如表2所示:
True Positive (TP) | 將正類正確的預測為正類數. (真正) |
---|---|
True Negative(TN) | 將負類正確的預測為負類數.(真負) |
False Positive (FP) | 將負類錯誤的預測為正類數(誤報) |
False Negative (FN) | 將正類錯誤的預測為負類數(漏報) |
在上述條件下,定義精確率(Precision),準確率(Accuracy)和召回率(Recall):
IOU(Precision)
在目標檢測中IOU的定義為:
如圖所示藍色的框是:Ground Truth 、黃色的框是:Detection Result 、綠色的框是:Detection Result ⋂ Ground Truth 即Area of overlap、紅色的框是:Detection Result ⋃ Ground Truth即Area of union
對應到混淆矩陣中:
True Positive (TP) | 綠色的框 |
---|---|
True Negative(TN) | 紅框之外的影象部分 |
False Positive (FP) | 黃色的框-綠色的框 |
False Negative (FN) | 藍色的框-綠色的框 |
準確率(Accuracy)
準確率可表示:假設要檢測A,B兩類目標,對於給定的測試資料集,分類器正確分類的A,B兩樣本數 與被分類的總樣本數 之比。在正負樣本不平衡的情況下,準確率這個評價指標有很大的缺陷,較少使用。對應到上圖中就是當藍色框人太小的時候,背景太大,即使預測的黃色框和藍色框不重合的時候,由於紅框之外的影象部分非常大,導致準確度依然很高:
精確率(Precision)
精確率可表示:假設要檢測A類目標,對於給定的測試資料集,分類器正確分類為A類的樣本數TP與被分為A類的樣本數TP+FP之比。對應上圖就是
召回率(Recall)
召回率可表示:假設要檢測A,B兩類目標,對於給定的測試資料集,分類器正確分為A類的樣本數TP佔所有應該被檢測為A類的樣本數的比例。對應上圖就是:
F-Measure
Measure可表示:精確率和召回率的調和均值,相當於精確率和召回率的綜合評價指標,計算方法如上式。
MAP
在多分類問題中,上述的精確度定義不足以描述多分類器的效能,於是又引入了平均精確率(Mean Average Precision):
其中Q是樣本的種類,P是每種樣本的檢測精確度,上式表示計算所有樣本種類的精確度的均值。