目標檢測常見評價指標（轉）

阿新 • • 發佈：2019-01-19

一：準確率（Accuracy）、錯誤率（Error rate）

二：混淆矩陣（Confusion Matrix）

三：召回率（Recall）、精確率（Precision）

四： P-R曲線、平均精度（Average-Precision，AP）、F指標

五：受試者工作特徵曲線（Receiver Operating

Characteristic，ROC）、AUC（Area Under Curve）、

EER（Equal Error Rate）

六: 平均精度均值(Mean Average Precision，mAP)、

IOU(Intersection Over Union)

七：參考文獻

一：準確率（Accuracy）、錯誤率（Error rate）

準確率（Accuracy）：

分對的樣本數除以所有的樣本數，即：

準確（分類）率=正確預測的正反例數 / 總數

錯誤率（error rate)：

錯誤率則與正確率相反，描述被分類器錯分的比例，即：

誤分類率=錯誤預測的正反例數/總數 = 1 - 準確（分類）率

準確率一般用來評估模型的全域性準確程度，不能包含太多資訊，全面評價一個模型，其中混淆矩陣是一個常用的手段。

二：混淆矩陣（Confusion Matrix）

混淆矩陣又被稱為錯誤矩陣，在每個類別下，模型預測錯誤的結果數量，以及錯誤預測的類別和正確預測的數量都在一個矩陣下面顯示出來，方便直觀的評估模型分類的結果。

混淆矩陣中的橫軸是模型預測的類別數量統計，縱軸是資料真實標籤的數量統計。

對角線，表示模型預測和資料標籤一致的數目，所以對角線之和除以測試集總數就是準確率。

對角線上數字越大越好，在視覺化結果中顏色越深，說明模型在該類的預測準確率越高。

如果按行來看，每行不在對角線位置的就是錯誤預測的類別。

總的來說，我們希望對角線越高越好，非對角線越低越

好，視覺化對角線時可以歸一化處理。

三：召回率（Recall）、精確率（Precision）

雖然我們的模型處理的是多標籤的分類任務，在一些場景中我們更加關注的可能是某一個類別對錯與否的標籤，相當於一個二分類。比如在做一個查詢某個物件的任務。

當樣本不均衡是，如正樣本10，負樣本990，這時即使模型把1000個樣本全部預測為負樣本，準確率（Accuracy）也有99%，這顯然是有問題的。這裡可以考慮用其他指標。

預測是否的二分類混淆矩陣：

分類目標只有兩類，計為正例（positive）和負（negtive）：

　1） True positives(TP): 被正確地劃分為正例的個數，即實際為正例且被分類器劃分為正例的例項數（樣本數）；

　2）False positives(FP): 被錯誤地劃分為正例的個數，即實際為負例但被分類器劃分為正例的例項數；

　3）False negatives(FN):被錯誤地劃分為負例的個數，即實際為正例但被分類器劃分為負例的例項數；

4）True negatives(TN): 被正確地劃分為負例的個數，即實際為負例且被分類器劃分為負例的例項數。

召回率（recall）：

又被稱為查全率，預測為正例（positive）的樣本中正確的數量除以真正的Positive的數量，即：

Recall=TP/(TP+FN)=TP/P

精確率（Precision）：

又被稱為查準率，被分為正例的示例中實際為正例的比例，即：

Precision=TP/（TP+FP）

這裡放出一張wikipedia上的圖：

這裡有一個隱藏的假設，就是類別的判斷是根據每個類別的概率的最大值確定的。

在多分類中如最後經過一個softmax層得到的是某個概率最大值，然而對於二分類，往往把模型預測為某個物件的概率從高到低排序，並且和真實標籤對應。

這時我們會設定某個閾值，大於這個閾值的分為正樣本，反之為負樣本。隨著選取的閾值不同，得到的指標是不一樣的。這時我們可以畫P-R曲線。

四： P-R曲線、平均精度（Average-Precision，AP）、F指標

P-R曲線：

選取不同閾值時對應的精度和召回畫出來

總體趨勢，精度越高，召回越低，當召回達到1時，對應概率分數最低的正樣本，這個時候正樣本數量除以所有大於等於該閾值的樣本數量就是最低的精度值。

平均精度（Average-Precision，AP）：

P-R曲線圍起來的面積，通常來說一個越好的分類器，AP值越高。

F指標（F-Measure）:

實際應用到分類時，需要綜合考慮精度，召回。選取一個閾值，F-Measure是選取這個閾值的常用手段：

$\beta$ 是關與召回的權重，大於1說明更看重召回的影響，小於1則更看重精度，等於1相當於兩者的調和平均，這裡得到一個常用的指標F1-Measure。

F1指標（F1-Measure）：

想用F1指標時，只需要選取F1指標最大時的閾值即可。

五：受試者工作特徵曲線（Receiver Operating

Characteristic，ROC）、AUC（Area Under Curve）、

EER（Equal Error Rate）

通過選取不同的閾值還可以得到另外一種常見的受試者工作特徵曲線，簡稱ROC曲線，方法類似P-R曲線，根據不同的閾值，橫軸為FPR，縱軸為TPR的曲線。

ROC關注兩個指標：

1） True Positive Rate ( TPR ) = TP / [ TP + FN] ，TPR代表能將正例分對的概率

2）False Positive Rate( FPR ) = FP / [ FP + TN] ，FPR代表將負例錯分為正例的概率

曲線左下和右上代表一個完全沒有效果的分類器，如果曲線在對角線左上，說明分類器有效果，在右下說明是負效果。

越靠近左上效果越好，理想的分類器對應的ROC曲線和（0，0）、（0，1）、（1，1）所在折線重合。

AUC（Area Under Curve）：

ROC曲線圍住的面積，越大，分類器效果越好。

EER（Equal Error Rate）：

指的是FNR=FPR的情況，因為FNR=1-TPR，所以在ROC曲線中就是曲線和（0，1）、（1，0）對角線的交點。從漏檢和誤檢的角度，FPR理解為對正樣本的漏檢率，FNR則是預測為正樣本的誤檢率。EER是均衡考慮這兩者時的閾值選定標準。

六: 平均精度均值(Mean Average Precision，mAP)、

IOU(Intersection Over Union)

評價一個檢測演算法時，主要看兩個指標，即是否正確的預測了框內物體的類別；預測的框和人工標註框的重合程度。

平均精度均值(Mean Average Precision，mAP):

mAP即是把每個類別的AP都單獨拿出來，然後計算所有類別AP的平均值，代表著對檢測到的目標平均精度的一個綜合度量。

IOU(Intersection Over Union):

IOU用來衡量預測的物體框和真實框的重合程度，即：

藍色的框是：GroundTruth

黃色的框是：DetectionResult

綠色的框是：DetectionResult ⋂GroundTruth

紅色的框是：DetectionResult ⋃GroundTruth

即兩個框的交併比，評價一個演算法的時候，一種常見的方法是先設定一個IOU的閾值，只要演算法找到的IOU大於這個閾值，就是一個有效的檢測，把記過拿出來計算mAP作為最終的評價指標。

目標檢測常見評價指標（轉）

一：準確率（Accuracy）、錯誤率（Error rate）二：混淆矩陣（Confusion Matrix）三：召回率（Recall）、精確率（Precision）四： P-R曲線、平均精度（Average-Precision，AP）、F指標五：

顯著性目標檢測模型評價指標（一）——平均絕對誤差：Mean Absolute Error(MAE)

顯著性目標檢測模型評價指標之平均絕對誤差(MAE)原理與實現程式碼目錄一、顯著性目標檢測簡介顯著性目標(Salient Object)：當我們在看一張圖片時，注意力首先會落在我們所感興趣的物體部分。比如我們看到一張畫有羊

顯著性目標檢測模型評價指標（二）——PR曲線

顯著性目標檢測模型評價指標之 PR曲線原理與實現程式碼目錄一、PR曲線原理在顯著目標提取中（關於視覺顯著性的簡要介紹點此處連結），PR曲線是用來評估模型效能的重要指標之一，PR曲線中的P(Precision)和R(Recall)分

R語言︱機器學習模型評價指標+（轉）模型出錯的四大原因及如何糾錯

筆者寄語：機器學習中交叉驗證的方式是主要的模型評價方法，交叉驗證中用到了哪些指標呢？交叉驗證將資料分為訓練資料集、測試資料集，然後通過訓練資料集進行訓練，通過測試資料集進行測試，驗證集進行驗證。模型預測

目標檢測之模型篇（4）【EAST】

文章目錄 1. 前言 2. 實現 2.1 Pipeline 2.2 網路設計 2.3 標籤生成 2.4 損失函式 2.5 訓練 2.6 位置感知的NMS 3. 結果 4. 總結 5.

目標檢測之模型篇（3）【DMPNet】

文章目錄 1. 前言 2. 實現 2.1 Roughly recall text with quadrilateral sliding window 2.2 Finely localize text with quadrangle

目標檢測之模型篇（2）【RRPN】

文章目錄 1. 前言 2. 實現 2.1 關鍵idea 2.2 模型結構 2.3 具體細節 1.Rotated Bounding Box Representation-旋轉矩形框的表示 2.Rotati

fluent裡常見基礎問題（轉）

1　什麼叫鬆弛因子？鬆弛因子對計算結果有什麼樣的影響？它對計算的收斂情況又有什麼樣的影響？　　1、亞鬆馳（Under Relaxation）：所謂亞鬆馳就是將本層次計算結果與上一層次結果的差值作適當縮減，以避免由於差值過大而引起非線性迭代過程的發散。用通用變數來寫出時，為鬆馳因子（Relaxati

珍藏 | 基於深度學習的目標檢測全面梳理總結（下）

關於作者：@李家丞同濟大學數學系本科在讀，現為格靈深瞳演算法部實習生。作者個人主頁：李家丞 | 個人主頁 | 關於我導言：目標檢測的任務表述如何從影象中解析出可供計算機理解的資訊，是機器視覺的中心問題。深度學習模型由於其強大的表示能力，加之資料量的積累和

珍藏 | 基於深度學習的目標檢測全面梳理總結（上）

關於作者：@李家丞同濟大學數學系本科在讀，現為格靈深瞳演算法部實習生。作者個人主頁：李家丞|個人主頁|關於我導言：目標檢測的任務表述如何從影象中解析出可供計算機理解的資訊，是機器視覺的中心問題。深度學習模型由於其強大的表示能力，加之資料量的積累和計算力的

caffe目標檢測模型訓練全過程（三）目標檢測第一步

遍歷整圖查詢蝴蝶位置 2018/04/22 訓練模型對於識別背景和蝴蝶有比較好的效果，基本對不會識別錯誤，接下來，將通過整圖遍歷的原始而又野蠻的方式對一張原始圖片進行處理，進而查詢到蝴蝶的具體位置。具體思路如下圖。對原圖進行縮放成理想大小，例如，最小邊長縮放為227*6畫素，最大邊長等比

目標檢測之網路篇（2）【STN-空間變換網路】

1. STN是什麼 STN：Spatial Transformer Networks，即空間變換網路，是Google旗下 DeepMind 公司的研究成果。該論文提出空間變換網路STN，分為引數預測、座標對映、畫素採集三大部分，可以插入到現有的CNN模型中。通

目標檢測之模型篇（1）【CTPN連線文字提議網路】

1. 前言本週開始看模型篇，本週目標：CTPN,RRPN,DMPNet,EAST,衝鴨！! 第一篇，CTPN（Connectionist Text Proposal Network），其實是基於Faster R-CNN改進的，將RPN的體系結構擴充套件到文字

目標檢測之網路篇（3）【Faster R-CNN】

前言 1.有關VGG16結構，參見：VGG16圖形化描述 2.本週目標是看三篇網路類，讀到第三篇Faster R-CNN的時候我發現需要先弄懂R-CNN以及Fast R-CNN。引用@v_JULY_v的文章的總結： R-CNN 1.在影象中確定約1000-200

效能測試常見的指標（一）

效能測試最基本要考慮以下幾點： 1、時間特性，主要指的是軟體產品的事物響應時間（使用者發出請求到收到應答的這段時間） 2、資源利用率，包括：cpu、記憶體、網路、硬碟、虛擬記憶體（如Java虛擬機器） 3、伺服器可靠性，指伺服器能在相對高負載情況下持續的執行 4、可配置優化性，指伺服器

機器學習的評價指標（二）-SSE、MSE、RMSE、MAE、R-Squared

迴歸評價指標SSE、MSE、RMSE、MAE、R-Squared 前言分類問題的評價指標上一篇文章已講述，那麼迴歸演算法的評價指標就是SSE、MSE，RMSE，MAE、R-Squared。下面一一介紹：一、SSE(和方差) 該統計引數計算的是擬合數據和原始資料對應

深度學習目標檢測(object detection)系列（四） Faster R-CNN

Faster R-CNN簡介 RBG團隊在2015年，與Fast R-CNN同年推出了Faster R-CNN，我們先從頭回顧下Object Detection任務中各個網路的發展，首先R-CNN用分類+bounding box解決了目標檢測問題，SP

yolo 目標檢測演算法個人總結（yolov1）

yolo 目標檢測演算法個人總結目前yolo目標檢測有兩個版本，分別為v1和v2。因工作需要用yolo演算法檢測人物，所以這段時間重點看了這兩篇論文，並實現了對應的tensorflow程式碼。這裡記錄下在論文閱讀過程中的一些細節資訊，留給自己，同時也希望各位能指出本人

目標檢測效能評價指標mAP、Precision、Recall、IoU

一、mAP 1. TP，FP，FN，TN （1）TP(True positives)：正確劃分正例個數；正->正；（2）FP(False positives)：錯誤劃分正例個數；負->正；（3）FN(False negatives)：錯誤劃分負例個數；

目標檢測光流法（三）：opencv下光流Farneback法

上節說到過的calcOpticalFlowPyrLK光流演算法，可以看到它實際上是一種稀疏特徵點的光流演算法，也就是說我們先找到那些（特徵）點需要進行處理，然後再處理，該節介紹下一個全域性性的密集光流演算法，也就是對每一個點都進行光流計算，函式為calcOpti

目標檢測常見評價指標（轉）

一：準確率 （Accuracy） 、錯誤率 （Error rate）

準確率 （Accuracy）：

分對的樣本數除以所有的樣本數 ，即：

準確（分類）率=正確預測的正反例數 / 總數

錯誤率（error rate)：

錯誤率則與正確率相反，描述被分類器錯分的比例，即：

誤分類率=錯誤預測的正反例數/總數 = 1 - 準確（分類）率

二：混淆矩陣 （Confusion Matrix）

混淆矩陣又被稱為錯誤矩陣， 在每個類別下，模型預測錯誤的結果數量，以及錯誤預測的類別和正確預測的數量都在一個矩陣下面顯示出來，方便直觀的評估模型分類的結果。

混淆矩陣中的橫軸是模型預測的類別數量統計，縱軸是資料真實標籤的數量統計。

對角線，表示模型預測和資料標籤一致的數目，所以對角線之和除以測試集總數就是準確率。

對角線上數字越大越好，在視覺化結果中顏色越深，說明模型在該類的預測準確率越高。

如果按行來看，每行不在對角線位置的就是錯誤預測的類別。

總的來說，我們希望對角線越高越好，非對角線越低越

好，視覺化對角線時可以歸一化處理。

三：召回率（Recall）、精確率（Precision）

雖然我們的模型處理的是多標籤的分類任務，在一些場景中我們更加關注的可能是某一個類別對錯與否的標籤，相當於一個二分類。比如在做一個查詢某個物件的任務。

當樣本不均衡是，如正樣本10，負樣本990，這時即使模型把1000個樣本全部預測為負樣本，準確率（Accuracy）也有99%，這顯然是有問題的。這裡可以考慮用其他指標。

預測是否的二分類混淆矩陣：

分類目標只有兩類，計為正例（positive）和負（negtive）：

1） True positives(TP): 被正確地劃分為正例的個數，即實際 為正例且被分類器劃分為正例的例項數（樣本數）；

2）False positives(FP): 被錯誤地劃分為正例的個數，即實際為負例但被分類器劃分為正例的例項數；

3）False negatives(FN):被錯誤地劃分為負例的個數，即實際為正例但被分類器劃分為負例的例項數；

4）True negatives(TN): 被正確地劃分為負例的個數，即實際為負例且被分類器劃分為負例的例項數。

召回率（recall）：

又被稱為查全率，預測為正例（positive）的樣本中正確的數量除以真正的Positive的數量，即：

Recall=TP/(TP+FN)=TP/P

精確率（Precision）：

又被稱為查準率，被分為正例的示例中實際為正例的比例，即：

Precision=TP/（TP+FP）

這裡放出一張wikipedia上的圖：

這裡有一個隱藏的假設，就是類別的判斷是根據每個類別的概率的最大值確定的。

在多分類中如最後經過一個softmax層得到的是某個概率最大值，然而對於二分類，往往把模型預測為某個物件的概率從高到低排序，並且和真實標籤對應。

這時我們會設定某個閾值，大於這個閾值的分為正樣本，反之為負樣本。隨著選取的閾值不同，得到的指標是不一樣的。這時我們可以畫P-R曲線。

四： P-R曲線、平均精度（Average-Precision，AP）、F指標

P-R曲線：

選取不同閾值時對應的精度和召回畫出來

總體趨勢，精度越高，召回越低，當召回達到1時，對應概率分數最低的正樣本，這個時候正樣本數量除以所有大於等於該閾值的樣本數量就是最低的精度值。

平均精度（Average-Precision，AP）：

P-R曲線圍起來的面積，通常來說一個越好的分類器，AP值越高。

F指標（F-Measure）:

實際應用到分類時，需要綜合考慮精度，召回。選取一個閾值，F-Measure是選取這個閾值的常用手段：

是關與召回的權重，大於1說明更看重召回的影響，小於1則更看重精度，等於1相當於兩者的調和平均，這裡得到一個常用的指標F1-Measure。

F1指標（F1-Measure）：

想用F1指標時，只需要選取F1指標最大時的閾值即可。

五：受試者工作特徵曲線（Receiver Operating

Characteristic，ROC）、AUC（Area Under Curve）、

EER（Equal Error Rate）

通過選取不同的閾值還可以得到另外一種常見的受試者工作特徵曲線，簡稱ROC曲線，方法類似P-R曲線，根據不同的閾值，橫軸為FPR，縱軸為TPR的曲線。

ROC關注兩個指標：

1） True Positive Rate ( TPR ) = TP / [ TP + FN] ，TPR代表能將正例分對的概率

2）False Positive Rate( FPR ) = FP / [ FP + TN] ，FPR代表將負例錯分為正例的概率

曲線左下和右上代表一個完全沒有效果的分類器，如果曲線在對角線左上，說明分類器有效果，在右下說明是負效果。

越靠近左上效果越好，理想的分類器對應的ROC曲線和（0，0）、（0，1）、（1，1）所在折線重合。

AUC（Area Under Curve）：

ROC曲線圍住的面積，越大，分類器效果越好。

EER（Equal Error Rate）：

指的是FNR=FPR的情況，因為FNR=1-TPR，所以在ROC曲線中就是曲線和（0，1）、（1，0）對角線的交點。從漏檢和誤檢的角度，FPR理解為對正樣本的漏檢率，FNR則是預測為正樣本的誤檢率。EER是均衡考慮這兩者時的閾值選定標準。

六: 平均精度均值(Mean Average Precision，mAP)、

IOU(Intersection Over Union)

評價一個檢測演算法時，主要看兩個指標，即是否正確的預測了框內物體的類別；預測的框和人工標註框的重合程度。

平均精度均值(Mean Average Precision，mAP):

mAP即是把每個類別的AP都單獨拿出來，然後計算所有類別AP的平均值，代表著對檢測到的目標平均精度的一個綜合度量。

IOU(Intersection Over Union):

IOU用來衡量預測的物體框和真實框的重合程度，即：

藍色的框是：GroundTruth

黃色的框是：DetectionResult

綠色的框是：DetectionResult ⋂GroundTruth

紅色的框是：DetectionResult ⋃GroundTruth

即兩個框的交併比，評價一個演算法的時候，一種常見的方法是先設定一個IOU的閾值，只要演算法找到的IOU大於這個閾值，就是一個有效的檢測，把記過拿出來計算mAP作為最終的評價指標。

相關推薦

一：準確率（Accuracy）、錯誤率（Error rate）

準確率（Accuracy）：

分對的樣本數除以所有的樣本數，即：

二：混淆矩陣（Confusion Matrix）

混淆矩陣又被稱為錯誤矩陣，在每個類別下，模型預測錯誤的結果數量，以及錯誤預測的類別和正確預測的數量都在一個矩陣下面顯示出來，方便直觀的評估模型分類的結果。

　1） True positives(TP): 被正確地劃分為正例的個數，即實際為正例且被分類器劃分為正例的例項數（樣本數）；

　2）False positives(FP): 被錯誤地劃分為正例的個數，即實際為負例但被分類器劃分為正例的例項數；

　3）False negatives(FN):被錯誤地劃分為負例的個數，即實際為正例但被分類器劃分為負例的例項數；

$\beta$ 是關與召回的權重，大於1說明更看重召回的影響，小於1則更看重精度，等於1相當於兩者的調和平均，這裡得到一個常用的指標F1-Measure。