1. 程式人生 > >目標跟蹤的評價指標

目標跟蹤的評價指標

esp cat efi dot nio ron 運行 ack .com

Precision plot: percentages of frames whose estimated locations lie in a given threshold distance to ground-truth centers.

追蹤算法估計的目標位置(bounding box)的中心點與人工標註(ground-truth)的目標的中心點,這兩者的距離小於給定閾值的視頻幀的百分比。不同的閾值,得到的百分比不一樣,因此可以獲得一條曲線。一般閾值設定為20個像素點。
該評估方法的缺點:無法反映目標物體大小與尺度的變化。
比如一個視頻有101幀,追蹤算法預測的bounding box中心點與ground-truth中心點距離小於20像素有60幀,其余40幀兩者距離均大於20個像素,則當閾值為20像素時,精度為0.6。


KCF追蹤算法論文中給出的曲線如下:

技術分享圖片

Success Plot: Let rt denote the area of tracked bounding box and ra denote the ground truth. An Overlap Score (OS) can be defined by S = |rt∩ra| |rt∪ra| where ∩ and ∩ are the intersection and union of two regions, and |·| counts the number of pixels in the corresponding area. Afterwards, a frame whose OS is larger than a threshold is termed as a successful frame, and the ratios of successful frames at the thresholds ranged from 0 to 1 are plotted in success plots.


首先定義重合率得分(overlap score,OS),追蹤算法得到的bounding box(記為a),與ground-truth給的box(記為b),重合率定義為:OS = |a∩b|/|a∪b|,|·|表示區域的像素數目。當某一幀的OS大於設定的閾值時,則該幀被視為成功的(Success),總的成功的幀占所有幀的百分比即為成功率(Success rate)。OS的取值範圍為0~1,因此可以繪制出一條曲線。一般閾值設定為0.5。

MDNet追蹤算法中precision plots和Success plots如下:

技術分享圖片

以上兩種常見的評估方式一般都是用ground-truth中目標的位置初始化第一幀,然後運行跟蹤算法得到平均精度和成功率。這種方法被稱為one-pass evaluation (OPE)。這種方法有2個缺點。一是一個跟蹤算法可能對第一幀給定的初始位置比較敏感,在不同位置或者幀初始會造成比較大的影響。二是大多數算法遇到跟蹤失敗後沒有重新初始化的機制。


針對上述兩個問題,又提出以下幾種評估方法。

魯棒性評估
通過從時間(temporally,從不同幀起始)和空間(spatially,不同的bounding box)上打亂,然後進行評估。可以分為:temporal robustness evaluation (TRE) 和 spatial robustness evaluation (SRE)。

Temporal robustness evaluation: Each tracking algorithm is evaluated numerous times from different starting frames across an image sequence. In each test, an algorithm is evaluated from a particular starting frame, with the initialization of the corresponding ground-truth object state, until the end of an image sequence. The tracking results of all the tests are averaged to generate the TRE score.
在一個圖片/視頻序列中,每個跟蹤算法從不同的幀作為起始進行追蹤(比如分別從第一幀開始進行跟蹤,從第十幀開始進行跟蹤,從第二十幀開始進行跟蹤等),初始化采用的bounding box即為對應幀標註的ground-truth。最後對這些結果取平均值,得到TRE score。

Spatial robustness evaluation: To evaluate whether a tracking method is sensitive to initialization errors, we generate the object states by slightly shifting or scaling the ground-truth bounding box of a target object. In this work, we use eight spatial shifts (four center shifts and four corner shifts), and four scale variations (see Fig. 2). The amount for shift is 10 percent of the target size, and the scale ratio varies from 80 to 120 percent of the ground truth at the increment of 10 percent. The SRE score is the average of these 12 evaluations.
由於有些算法對初始化時給定的bounding box比較敏感,而目前測評用的ground-truth都是人工標註的,因此可能會對某些跟蹤算法產生影響。因此為了評估這些跟蹤算法是否對初始化敏感,作者通過將ground-truth輕微的平移和尺度的擴大與縮小來產生bounding box。平移的大小為目標物體大小的10%,尺度變化範圍為ground-truth的80%到120%,每10%依次增加。最後取這些結果的平均值作為SRE score。

C-COT跟蹤算法中針對 Overlap 的 TRE 和 SRE plot 如下:

技術分享圖片

目標跟蹤的評價指標