1. 程式人生 > >機器學習:模型性能度量(performance measure)(待補充)

機器學習:模型性能度量(performance measure)(待補充)

splay 樣本 常用 spl n) enc 統計學習方法 後者 性能

對學習器的泛化性能進行評估,不僅需要有效的實驗估計方法,還需要有衡量模型泛化性能的評準指標,這就是性能度量。性能度量反應任務需求,對比不同模型能力時,使用不同性能度量能導致不同的評判結果。因此,模型的好壞是相對的,模型不僅取決於算法和數據,還絕對於任務需求。

1. 回歸任務中常用的性能度量是“均方誤差”(mean squared error)

2. 聚類任務中性能度量分為兩類:一類是將聚類結果與某個“參考模型”(reference model)進行比較,成為“外部指標”(external index);另一類是直接考察聚類結果而不利用任何參考模型,成為“內部指標”(internal index)。

3. 分類任務中常用的性能度量

3.1 錯誤率和精度

  錯誤率是分類錯誤的樣本數占樣本總數的比例

  精度(accuracy)是分類正確的樣本數占樣本總數的比例

  精度=1-錯誤率

3.2 查準率、查全率與F1

  查準率(precision),亦是“準確率”,表示查出來為正確的信息有多少是正確的

  查全率(recall),亦是“召回率”,表示查出來為正確的信息占總共正確信息的比例

  對於二分類問題,可將陽歷根據真實類別與學習器預測類別的組合劃分為真正例(true positive),假正例(false positive),真反例(true negative),假反例(false negative)四種情況,因此TP+FP+TN+FN=樣本總數。分類結果的“混淆矩陣”(confusion matrix)如下

技術分享

  所以查準率P和查全率R分別為:

    技術分享

  一般來說,查準率搞得時候, 查全率往往偏低,反之亦然。他們的關系“P-R曲線”如下圖:

  技術分享

  如果一個學習器的P-R曲線把另外一個學習器的曲線包住,則斷言前者優於後者。如果兩者相交,則不容易觀察,因此常用F1來度量,綜合考察查準率和查全率。

  F1是基於查準率和查全率的調和平均(harmonic mean):

技術分享

  簡化得到:技術分享

  考慮到由於任務要求不同,對查全率和查準率的偏好不同,還有加權調和平均,在參考書1的第2章。與算數平均((P+R)/2)和幾何平均相比,調和平均更重視較小值。但最終我們需要的是查準率和查全率都盡可能高,F1可以很好反應這一點,當查準率和召回率都高的時候,F1的值也高。

  對於分類器比較,F1數值越大越好。

3.3 ROC與AUC

3.4 代價敏感錯誤率與代價曲線

參考書:《機器學習》周誌華

     《統計學習方法》 李航

機器學習:模型性能度量(performance measure)(待補充)