1. 程式人生 > >資訊檢索指標-查準率(Precision),查全率(Recall),平均準確率(mAP)

資訊檢索指標-查準率(Precision),查全率(Recall),平均準確率(mAP)

 一.查準率和查全率

查準率=準確率(Precision)=檢索到的該類影象/檢索到的所有影象數

 

查全率=召回率(Recall)=檢索到的該類影象/資料庫中所有的該類影象

 

二.MAP(Mean Average Precision)平均精度均值

MAP可以由它的三個部分來理解:P,AP,MAP

P(Precision)精度,正確率。在資訊檢索領域用的比較多,和正確率一塊出現的是召回率Recall。對於一個查詢,返回了一系列的文件,正確率指的是返回的結果中相關的文件佔的比例,而召回率則是返回結果中相關文件佔所有相關文件的比例。相關概念如上。

MAP(Mean Average Precision):單個主題的平均準確率是每篇相關文件檢索出後的準確率的平均值主集合的平均準確率(MAP)是每個主題的平均準確率的平均值。 MAP 是反映系統在全部相關文件上效能的單值指標。系統檢索出來的相關文件越靠前(rank 越高),MAP就可能越高。如果系統沒有返回相關文件,則準確率預設為0。

對一個搜尋引擎或推薦系統而言返回的結果必然是有序的,而且越相關的文件排的越靠前越好,於是有了AP的概念。對一個有序的列表,計算AP的時候要先求出每個位置上的precision,然後對所有的位置的precision再做個average。

多類別識別中,每類物體都可以根據查全率和查準率畫出一條曲線,AP就是該曲線下的面積,mAP就是多類別的AP面積的平均值。


例1:假設有兩個主題,主題1有4個相關網頁,主題2有5個相關網頁。

某系統對於主題1檢索出4個相關網頁,其rank分別為1, 2, 4, 7;對於主題2檢索出3個相關網頁,其rank分別為1,3,5。

對於主題1,平均準確率為(1/1+2/2+3/4+4/7)/4=0.83。

對於主題 2,平均準確率為(1/1+2/3+3/5+0+0)/5=0.45。則MAP= (0.83+0.45)/2=0.64。

 

例2:分析圖為主題1有五個相關,主題2有三個相關。主題一rank為1,3,6,9,10,主題二rank為2,5,7.

1/1,2/3,3/6,4/9,5/10

1/2,2/5,3/7

例3:

若該位置返回的結果相關,計算該位置的正確率,若不相關,正確率置為0。若返回的這四個的相關文件排在1,2,3,4號位,則對於的正確率都為1,AP也就等於1,可見計算方法是對排序位置敏感的,相關文件排序的位置越靠前,檢出的相關文件越多,AP值越大。

 

 

例4:

比如一個數據庫,男5人,女5人

系統1搜尋女,結果排序如下:

1 女

2 男

3 男

4 男

5 女

6 女

7 女

 

系統2 搜尋女,結果排序如下:

 

1 女

2 女

3 女

4 女

5 男

6 男

7 男

 

對於系統1:
查全率=系統檢索到的相關檔案 / 系統所有相關的檔案總數=4/5
準確率=系統檢索到的相關檔案 / 系統所有檢索到的檔案總數=4/7
mAP=(1/1+2/5+3/6+4/7)/5
對於系統2:
查全率=系統檢索到的相關檔案 / 系統所有相關的檔案總數=4/5
準確率=系統檢索到的相關檔案 / 系統所有檢索到的檔案總數=4/7
mAP=(1/1+2/2+3/3+4/4)/5

 

 

結論:系統1和系統2,查全率和準確率相同,此時用mAP來衡量系統好壞,更加有效。