DAVIS2016-A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation

視訊屬性
ID	Description	描述
BC	Background Clutter. The back- and foreground regions around the object boundaries have similar colors ( $\chi ^2$ over histograms).	複雜的背景。在目標邊界附近的背景前景區域有相似的顏色。
DEF	Deformation. Object undergoes complex, non-rigid deformations.	形變。目標存在複雜的非剛性的形變。
MB	Motion Blur. Object has fuzzy boundaries due to fast motion.	運動模糊。由於快速的運動，目標邊界模糊。
FM	Fast-Motion. The average, per-frame object motion, computed as centroids Euclidean distance, is larger than $\tau_{fm}$ = 20 pixels.	快速運動。目標平均的幀間運動距離大於20畫素，距離定義為質心的歐幾里得距離。
LR	Low Resolution. The ratio between the average object bounding-box area and the image area is smaller than tlr = 0.1.	低解析度（小目標）。平均目標邊框區域與影象區域的比值小於tlr = 0.1。
OCC	Occlusion. Object becomes partially or fully occluded.	遮擋。目標部分或全部被遮擋。
OV	Out-of-view. Object is partially clipped by the image boundaries.	視野之外。目標被影象邊框裁剪了部分，即只有部分目標處於視野中。
SV	Scale-Variation. The area ratio among any pair of boundingboxes enclosing the target object is smaller than $\tau_{sv}$ = 0.5.	尺度變化。存在一對包圍目標物件的邊界框（兩幀），他們的面積比小於0.5。
AC	Appearance Change. Noticeable appearance variation, due to illumination changes and relative camera-object rotation.	外觀變化。由光照變化和相對的相機-目標旋轉導致的顯著外觀變化。
EA	Edge Ambiguity. Unreliable edge detection. The average groundtruth edge probability (using [11]) is smaller than $\tau _{e}$ = 0.5.	邊沿模糊。不可靠的邊沿檢測。平均真值邊界的概率小於0.5.
CS	Camera-Shake. Footage displays non-negligible vibrations.	相機抖動。畫面顯示不可忽略的振動。
HO	Heterogeneus Object. Object regions have distinct colors.	顏色不均勻的目標。目標區域有不同的顏色。
IO	Interacting Objects. The target object is an ensemble of multiple, spatially-connected objects (e.g. mother with stroller).	互動的物件。目標物件是多個空間連線的物件(例如母親和嬰兒車)的集合。
DB	Dynamic Background. Background regions move or deform.	動態背景。背景區域移動或者形變。
SC	Shape Complexity. The object has complex boundaries such as thin parts and holes.	複雜形狀。目標有複雜的邊界，比如很細的部分或者洞。

這些屬性並不具備排他性，因此一個視訊序列可以被標註多個屬性。他們在資料集中的分佈展示在下圖左中，圖右顯示他們兩兩之間的依賴關係。註釋使我們能夠將效能分析解耦到具有主要特徵的不同組中(例如遮擋)，從而更好地理解每種方法的優缺點。

4.實驗驗證

為了判斷分割的質量，如何選擇合適的度量標準在很大程度上取決於最終應用程式的最終目標。

直觀上講，當視訊分割主要用於更大處理管道中的分類器時，例如解析大型資料集時，強調錯誤標記的畫素的最少數量是非常有意義的。

另一方面，在視訊編輯應用中，輪廓的準確性和結果在時間域上的穩定性是最重要的，因為這些屬性通常需要最艱苦和耗時的手工輸入。

為了全面地涵蓋上述方面，我們使用三個互補的誤差指標來評估視訊分割結果。

我們在4.1節中描述了度量標準，並在4.2節中對它們的互補屬性進行了實證驗證。

4.1度量標準選擇

在有監督的評估框架中，給定一個特定幀上的groundtruth-mask G和一個輸出的分割結果M，任何評估措施最終都必須回答一個問題，即M如何適合G。

在[37]中，對於影象，可以使用兩個互補的觀點，基於區域和基於輪廓的度量。

由於視訊將靜態影象的維數擴充套件到時間，因此還必須考慮結果的時間穩定性。

我們的評估基於以下測量。

區域相似度（Region Similarity $\mathcal{J}$ ）

為了測量基於區域的分割相似度，即錯別字畫素的數量，我們使用Jaccard索引 $\mathcal{J}$ 。

$\mathcal{J}$ 定義為估計分割和真值掩膜之間的IoU（Intersection over Union）。

自從在PASCAL VOC2008目標跟蹤挑戰中首次出現以後，Jaccard索引已經被廣泛應用。

Jaccard索引提供了關於錯誤分類畫素的、直觀的和尺度不變的資訊。

給定輸出分割 $M$ 和真值掩膜 $G$ ，Jaccard索引定義為： $\mathcal{J} = \frac{M\cap G}{M\cup G}$ 。

邊沿精度（Contour Accuracy $\mathcal{F}$ ）

從基於輪廓的角度來看，可以將M解釋為一組限定掩模空間範圍的閉合輪廓c(M)。

因此，通過一個二分圖匹配以提高對小誤差的魯棒性，我們可以比較 $c(M)$ 和 $c(G)$ 的邊緣點計算基於輪廓的精度 $P_c$ 和召回 $R_c$ 。

我們認為F-score $\mathcal{F}$ 可以取得精度和召回之間較好的權衡，定義為： $\mathcal{F} = \frac{2P_{c}R_{e}}{P_{c}+R_e}$

為了提高效率，在我們的實驗中，我們使用形態學運算元近似替代了二分匹配。

時間穩定性（Temporal stability $\mathcal{T}$ ）

直觀地， $\mathcal{J}$ 測度了兩個掩膜間畫素的匹配度， $\mathcal{F}$ 測量了邊緣的精度。

但是，結果的時域穩定性是視訊物件分割中的一個相關重要的方面，由於物件形狀的演化是識別和抖動的一個重要線索，不穩定的邊界在視訊編輯應用中是不可接受的。

因此，我們還引入了一種時間穩定性測量方法來懲罰這種不期望的效果。

關鍵的挑戰是區分物體的可接受的運動和不需要的不穩定性和抖動。

為此，我們估計了在一幀掩碼轉換到下一幀所需的變形。直觀地說，如果轉換是平滑和精確的，結果可以認為是穩定的。

在形式上，我們將幀t的掩膜 $M_t$ 轉換為代表其輪廓的多邊形 $P(M_t)$ 。然後，我們使用形狀上下文描(SCD)[3]述符描述每個點 $p^i_t\in{P(M_t)}$ 。接下來，我們將匹配設定為動態時間扭曲(DTW)[39]問題，是我們尋找 $p_t^i$ 和 $p_{t+1}^j$ 之間的匹配，它最小化了匹配點之間的SCD距離，同時保持了點在形狀中出現的順序。

每匹配點的平均成本作為時間穩定性 $\mathcal{T}$ 的度量。直觀上，匹配將補償運動和小的變形，但它不會補償曲線的振盪和誤差，這是我們想要測量的。遮擋和非常強的變形會被誤解為輪廓不穩定，因此我們在沒有這種影響的情況下計算序列子集的測量值。

4.2指標之間的關係

差異性

左圖結果 $\mathcal{J}$ 低但 $\mathcal{F}$ 高，右圖 $\mathcal{J}$ 高但 $\mathcal{F}$ 低

DAVIS2016-A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation

1.摘要

3.資料集介紹

3.1資料數量和質量

3.2實驗驗證

3.3物件存在

3.4無約束視訊的挑戰

4.實驗驗證