1. 程式人生 > >為什麼ROC曲線不受樣本不均衡問題的影響

為什麼ROC曲線不受樣本不均衡問題的影響

在對分類模型的評價標準中,除了常用的錯誤率,精確率,召回率和F1度量外,還有兩類曲線:ROC曲線和PR曲線,它們都是基於混淆矩陣,在不同分類閾值下兩個重要量的關係曲線。

在二分類問題中,分類器將一個例項分類為正樣本和負樣本,全部分類樣本可以用一個混淆矩陣來表示。混淆矩陣有四個分類,如下表:

這裡寫圖片描述

對於PR曲線,它是精確率(precision,簡稱P)和召回率(Recall,簡稱R)的關係曲線,計算式如下:

P=TPTP+FP,R=TPTP+FN (1)

對於ROC曲線,它是“真正例率”(True Positive Rate, 簡稱TPR),橫軸是“假正例率”(False Positive Rate,簡稱FPR)的關係曲線,計算式如下:

TPR=TPTP+FN,FPR=FPFP+TN (2)

真正例率是在所有正例中,你將多少預測為了正例,這是你希望最大化的,也可以看作收益;假正例率是在所有負例中,你又將多少預測為了正例,這是你希望最小化的,也可以看作代價。

從公式(2)和表中可以看出,TPR考慮的是第一行,實際都是正例,FPR考慮的是第二行,實際都是負例。因此,在正負樣本數量不均衡的時候,比如負樣本的數量增加到原來的10倍,那TPR不受影響,FPR的各項也是成比例的增加,並不會有太大的變化。因此,在樣本不均衡的情況下,同樣ROC曲線仍然能較好地評價分類器的效能,這是ROC的一個優良特性,也是為什麼一般ROC曲線使用更多的原因。

而看公式(1)和表,精確率P考慮的是第一列,實際中包括正例和負例,因此,正負樣本數量的變化會引起該值的變化,進而影響PR曲線對分類器的評價。

下圖是ROC曲線和PR曲線的對比:

這裡寫圖片描述

a,c為ROC曲線,b,d為PR曲線。(a)和(b)展示的是分類其在原始測試集(正負樣本分佈平衡)的結果,(c)(d)是將測試集中負樣本的數量增加到原來的10倍後,分類器的結果,可以明顯的看出,ROC曲線基本保持原貌,而PR曲線變化較大。