模型評估標準常用指標
阿新 • • 發佈:2019-01-07
一、分類指標
- 樣本中存在兩種兩種標籤:樣本真實標籤和模型預測標籤。
- 根據這兩個標籤可以得到一個混淆矩陣:
- 每一行代表樣本的真實類別,資料總數表示該類別的樣本總數。
- 每一列代表樣本的預測類別,資料總數表示該類別的樣本總數。
- 分類模型的評價指標主要基於混淆矩陣。
二、混淆矩陣
三、正確率
- 用來表示模型預測正確的樣本比例。
- 定義如下:
四、精度和召回率
- 精度和召回率是比正確率更好的效能評價指標,是對某個類別的評價。
- 精度:(查準率)是指正確預測的正樣本佔所有預測為正樣本的比例:
- 召回率:(查全率)又稱靈敏度和命中率,是指正樣本中被正確預測的比例:
五、F1值
- 精度和召回率是負相關的:高精度往往對應召回率
- F值即是綜合考慮精度和召回率的一個指標:
其中為β正數,其作用是調整精度和召回率的權重。β越大,召回率的權重更大;β越小,則精度的權重更大。 當β正數為1時為F1值,精度和召回率權值一樣。
六、ROC與AUC
- ROC曲線和AUC是一個從整體上評價二分類模型優劣的指標,其中AUC是ROC曲線與其橫軸之間的面積。AUC值越大說明模型越好。
- ROC曲線通過真陽率和假陽率兩個指標進行繪製:
- 真陽率是真實標籤為正樣本里預測也為正樣本的比例,用TPR表示
- 假陽率是真實標籤為負樣本里預測為正樣本的比例,用FPR表示