為什麼ROC曲線不受樣本不均衡問題的影響

阿新 • • 發佈：2019-01-27

在對分類模型的評價標準中，除了常用的錯誤率，精確率，召回率和F1度量外，還有兩類曲線：ROC曲線和PR曲線，它們都是基於混淆矩陣，在不同分類閾值下兩個重要量的關係曲線。

在二分類問題中，分類器將一個例項分類為正樣本和負樣本，全部分類樣本可以用一個混淆矩陣來表示。混淆矩陣有四個分類，如下表:

這裡寫圖片描述

對於PR曲線，它是精確率（precision，簡稱P）和召回率（Recall，簡稱R）的關係曲線，計算式如下：

$P = \frac{T P}{T P + F P}, R = \frac{T P}{T P + F N}$ (1)

對於ROC曲線，它是“真正例率”(True Positive Rate, 簡稱TPR)，橫軸是“假正例率”(False Positive Rate,簡稱FPR)的關係曲線，計算式如下：

$T P R = \frac{T P}{T P + F N}, F P R = \frac{F P}{F P + T N}$ (2)

真正例率是在所有正例中，你將多少預測為了正例，這是你希望最大化的，也可以看作收益；假正例率是在所有負例中，你又將多少預測為了正例，這是你希望最小化的，也可以看作代價。

從公式(2)和表中可以看出，TPR考慮的是第一行，實際都是正例，FPR考慮的是第二行，實際都是負例。因此，在正負樣本數量不均衡的時候，比如負樣本的數量增加到原來的10倍，那TPR不受影響，FPR的各項也是成比例的增加，並不會有太大的變化。因此，在樣本不均衡的情況下，同樣ROC曲線仍然能較好地評價分類器的效能，這是ROC的一個優良特性，也是為什麼一般ROC曲線使用更多的原因。

而看公式(1)和表，精確率P考慮的是第一列，實際中包括正例和負例，因此，正負樣本數量的變化會引起該值的變化，進而影響PR曲線對分類器的評價。

下圖是ROC曲線和PR曲線的對比：

這裡寫圖片描述

a,c為ROC曲線，b,d為PR曲線。(a)和(b)展示的是分類其在原始測試集(正負樣本分佈平衡)的結果，(c)(d)是將測試集中負樣本的數量增加到原來的10倍後，分類器的結果，可以明顯的看出，ROC曲線基本保持原貌，而PR曲線變化較大。

為什麼ROC曲線不受樣本不均衡問題的影響

為什麼ROC曲線不受樣本不均衡問題的影響

為什麽ROC曲線不受樣本不均衡問題的影響

ROC曲線是通過樣本點分類概率畫出的例如某一個sample預測為1概率為0.6 預測為0概率0.4這樣畫出來，此外如果曲線不是特別平滑的話,那麽很可能存在過擬合的情況

qt 子窗體透明不受父窗體背景影響播放視訊

改變DIV的背景顏色透明度，但其中的文字不受影響?

如何解決樣本不均衡問題

只針對子目錄添加執行權限，文件不受影響

Sklearn-LogisticRegression邏輯迴歸(有處理樣本不均衡時設定引數的方法)

AiChallenger比賽記錄之樣本不均衡

樣本不均衡解決辦法

GitHub修復了允許任意程式碼執行的安全漏洞 Windows不受影響

解決C#時間格式問題，不在受系統時間格式影響

如何解決機器學習深度學習訓練集樣本不均衡的問題！

13.解決樣本不均衡問題

Android應用內設定多語言，可隨系統語言改變而改變，也可設定app為固定語言不受系統語言影響

Unity 粒子特效不受Time.deltaTime影響

處理樣本不均衡數據

機器學習——樣本不均衡的處理方式

資料不平衡時分類器效能評價（ROC曲線）

JavaScript禁止沒有回車事件的input觸發submit提交表單事件，已有回車觸發事件的input不受影響

為什麼ROC曲線不受樣本不均衡問題的影響

相關推薦