1. 程式人生 > >準確率、召回率和F值的關係

準確率、召回率和F值的關係

在資訊檢索、統計分類、識別、預測、翻譯等領域,兩個最基本指標是準確率和召回率,用來評價結果的質量。

準確率(Precision),又稱“精度”、“正確率”、“查準率”,表示在檢索到的所有文件中,檢索到的相關文件所佔的比例。

召回率(Recall),又稱“查全率”,表示在所有相關文件中,檢索到的相關文件所佔的比率。

兩者的公式為:

準確率 = 檢索到的相關文件數量 / 檢索到的所有文件總數

召回率 = 檢索到的相關文件數量 / 系統中所有相關文件的總數

圖示如下:
這裡寫圖片描述

舉例來說:一個數據庫中有500個文件,其中有50個文件符合定義的問題。系統檢索到75個文件,其中只有45個文件符合定義的問題。

準確率 = 45 / 75 = 60%

召回率 = 45 / 50 = 90%

若將所有文件都檢索到,這些指標有何變化:

準確率 = 50 / 500 = 10%

召回率 = 50 / 50 = 100%

可見,準確率和召回率是相互影響的,理想情況下肯定是兩者都高,但是一般情況下準確率高,召回率就低;召回率高,準確率就低;如果兩者都低,那肯定是什麼環節有問題了。

比如,在檢索系統中,如果希望提高召回率,即希望更多的相關文件被檢索到,就要放寬“檢索策略”,便會在檢索中伴隨出現一些不相關的結果,從而影響到準確率。如果希望提高準確率,即希望去除檢索結果中的不相關文件時,就需要嚴格“檢索策略”,便會使一些相關文件不能被檢索到,從而影響到召回率。

針對不同目的,如果是做搜尋,那就是優先提高召回率,在保證召回率的情況下,提升準確率;如果做疾病監測、反垃圾,則是優先提高準確率,保準確率的條件下,提升召回率。

那麼,在兩者都要求高的情況下,如何綜合衡量準確率和召回率呢?一般使用F值

F-Measure是準確率(P)和召回率(R)的加權調和平均。公式為:

這裡寫圖片描述

當引數α=1時,就是最常見的F1,即

這裡寫圖片描述

可見F1綜合了P和R的結果,可用於綜合評價實驗結果的質量。