1. 程式人生 > >模型評估標準常用指標

模型評估標準常用指標

一、分類指標

  1. 樣本中存在兩種兩種標籤:樣本真實標籤和模型預測標籤。
  2. 根據這兩個標籤可以得到一個混淆矩陣:
  • 每一行代表樣本的真實類別,資料總數表示該類別的樣本總數。
  • 每一列代表樣本的預測類別,資料總數表示該類別的樣本總數。
  • 分類模型的評價指標主要基於混淆矩陣。

二、混淆矩陣

三、正確率

  1. 用來表示模型預測正確的樣本比例。
  2. 定義如下:

四、精度和召回率

  1. 精度和召回率是比正確率更好的效能評價指標,是對某個類別的評價。
  • 精度:(查準率)是指正確預測的正樣本佔所有預測為正樣本的比例:

  • 召回率:(查全率)又稱靈敏度和命中率,是指正樣本中被正確預測的比例:

五、F1值

  1. 精度和召回率是負相關的:高精度往往對應召回率
  2. F值即是綜合考慮精度和召回率的一個指標:

其中為β正數,其作用是調整精度和召回率的權重。β越大,召回率的權重更大;β越小,則精度的權重更大。 當β正數為1時為F1值,精度和召回率權值一樣。

六、ROC與AUC

  1. ROC曲線和AUC是一個從整體上評價二分類模型優劣的指標,其中AUC是ROC曲線與其橫軸之間的面積。AUC值越大說明模型越好。
  2. ROC曲線通過真陽率和假陽率兩個指標進行繪製:
  • 真陽率是真實標籤為正樣本里預測也為正樣本的比例,用TPR表示
  • 假陽率是真實標籤為負樣本里預測為正樣本的比例,用FPR表示