1. 程式人生 > >分類演算法中常用的評價指標

分類演算法中常用的評價指標

混淆矩陣

labeled as positive labeled as negative
predicted as positive True Positive
(TP)
False Positive
(FP)
predicted as negative False Negative
(FN)
True Negative
(TN)


混淆矩陣(Confusion Matrix)中包含四種資料:

  • TP:實際為正例,被預測為正例,預測正確
  • FP:實際為負例,被預測為正例,預測錯誤
  • FN:實際為正例,被預測為負例,預測錯誤
  • TN:實際為負例,被預測為正例,預測正確

由以上四種資料得到四種比率如下:

  • TPR(True Positive Rate,又稱 靈敏度:sensitivity):TPR=TPTP+FN,即
  • FPR(False Positive Rate):FPR=FPFP+TN,即
  • FNR(False Negative Rate):FNR=FNTP+FN,即
  • TNR(True Negative Rate,又稱 特指度:specificity):TNR=TNFP+TN,即

評價指標

  • Precision,即查準率:P=TPTP+FP
  • Recall,即查全率:R=TPTP+FN
  • F-Score,即precision和recall的調和平均值,更接近precision和recall中較小的那一個值:F=2×P×RP+R
  • Accuracy,分類器對整體樣本的分類能力,即正例分為正例,負例分為負例:A=TP+TNTP+FP+FN+TN
  • ROC,Receiver Operating Characteristic,主要用於畫ROC曲線(橫座標為FPR,縱座標為TPR)

ROC曲線中,關於四個關鍵點的解釋:
(FPR=0,TPR=0):將全部正例分為負例,全部負例分為負例
(FPR=0,TPR=1):全部劃分正確,即正例全部分為正例,負例全部分為負例
(FPR=1,TPR=1):將全部負例分為正例,全部正例分為正例
所以,ROC曲線越靠近左上角,說明分類器的效果越好。

  • AUC,Area Under ROC Curve
    在實際的資料集中經常會出現類不平衡(class imbalance)現象,即負樣本比正樣本多很多(或者相反),而且測試資料中的正負樣本的分佈也可能隨著時間變化,這樣ROC曲線會出現加大的波動。
    AUC的值就是處於ROC curve下方的那部分面積的大小。通常,AUC的值介於0.5到1.0之間,較大的AUC代表了較好的performance。如果模型是完美的,那麼它的AUG = 1,如果模型是個簡單的隨機猜測模型,那麼它的AUG = 0.5,如果一個模型好於另一個,則它的曲線下方面積相對較大。