1. 程式人生 > >P-R曲線

P-R曲線

P-R曲線刻畫查準率和查全率之間的關係,查準率指的是在所有預測為正例的資料中,真正例所佔的比例,查全率是指預測為真正例的資料佔所有正例資料的比例。
即:查準率P=TP/(TP + FP) 查全率=TP/(TP+FN)
查準率和查全率是一對矛盾的度量,一般來說,查準率高時,查全率往往偏低,查全率高時,查準率往往偏低,例如,若希望將好瓜儘可能多選出來,則可通過增加選瓜的數量來實現,如果希望將所有的西瓜都選上,那麼所有的好瓜必然都被選上了,但這樣查準率就會較低;若希望選出的瓜中好瓜比例儘可能高,則可只挑選最有把握的瓜,但這樣就難免會漏掉不少好瓜,使得查全率較低。

在很多情況下,我們可以根據學習器的預測結果對樣例進行排序,排在前面的是學習器認為最可能是正例的樣本,排在後面的是學習器認為最不可能是正例的樣本,按此順序逐個把樣本作為正例進行預測,則每次可計算當前的查全率和查準率,以查準率為y軸,以查全率為x軸,可以畫出下面的P-R曲線。

如果一個學習器的P-R曲線被另一個學習器的P-R曲線完全包住,則可斷言後者的效能優於前者,例如上面的A和B優於學習器C,但是A和B的效能無法直接判斷,但我們往往仍希望把學習器A和學習器B進行一個比較,我們可以根據曲線下方的面積大小來進行比較,但更常用的是平衡點或者是F1值平衡點(BEP)是查準率=查全率時的取值,如果這個值較大,則說明學習器的效能較好。而F1 = 2 * P * R /( P + R ),同樣,F1值越大,我們可以認為該學習器的效能較好。