1. 程式人生 > >DAVIS2016-A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation

DAVIS2016-A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation

  • 專案網址:https://davischallenge.org/davis2016/code.html
  • 稠密標註的視訊目標分割資料集
  • 可以用於半監督和無監督的方法檢驗
  • 可以用於目標分割問題,也可以用於運動檢測問題
  • 有訓練集,但測試集包含訓練集
  • 後續會更新如何使用該資料集

目錄

1.摘要

3.資料集介紹

3.1資料數量和質量

3.2實驗驗證

3.3物件存在

3.4無約束視訊的挑戰

4.實驗驗證

4.1度量標準選擇

區域相似度(Region Similarity )

邊沿精度(Contour Accuracy )

時間穩定性(Temporal stability )

4.2指標之間的關係

相關性

差異性



1.摘要

DAVIS由50個高質量,全高清的視訊序列組,包含有多個視訊目標分割挑戰,如遮擋,運動模糊和外觀變化。每一個視訊都是稠密標註,畫素級別的精度和逐幀的真值分割。

 

3.資料集介紹

根據對現有資料集的經驗,我們首先確定我們應該關注的四個關鍵方面,以建立一個平衡和全面的資料集。

3.1資料數量和質量

足夠大數量的資料是必要的,這可以保證內容的多樣性,並且提供一組均勻分佈的挑戰。

並且,有足夠的資料對於以下方面至關重要:避免演算法過擬合,延遲效能飽使資料集保持一個較長的使用壽命。

質量也是很重要的,因為資料集的質量需能反映現有技術的水平。

綜上原因,DAVIS構成包括50個序列總共3455標註幀,視訊幀率為24fps,1080p解析度。

由於計算複雜度是視訊處理的一個重要瓶頸,DAVIS中的視訊序列採用較短的時間長度(2-4秒),但是卻涵蓋了大部分在長視訊序列中找到的挑戰。

3.2實驗驗證

對於視訊中的每一幀,我們提供畫素級別的精度,以二進位制掩碼的方式手工建立分割。

雖然我們細分DAVIS為訓練和測試集,為未來的工作提供指導,但是在我們的評估時,不使用分割槽,而是考慮整個資料集,因為大多數的評估方法不需要訓練,並且由於計算複雜度,網格搜尋最優引數的估計是不可行的。

3.3物件存在

直觀地說,每個序列應該至少包含一個目標的前地物件,以用於與背景區域進行分離。

DAVIS的剪輯中包含一個物件或兩個空間連線的物件。
我們選擇不具有多個具有顯著運動的不同物件,以便能夠公平地比較在單個物件上操作的分割方法與聯合分割多個物件的分割方法。

此外,每個序列只有一個物件,可以消除由全自動方法執行的檢測的歧義。(這個不理解,為嘛全自動執行的檢測方法會出現歧義)

在[27]中做出的一個類似的設計選擇已經成功地指導了顯著目標檢測的研究,從它的開始到目前的最先進的。為了確保足夠的內容多樣性(這是全面評估不同演算法效能所必需的),資料集跨越四個均勻分佈的類(人類、動物、車輛、物件)和多個動作。

3.4無約束視訊的挑戰

為了能夠對演算法的效能進行更深入的分析和理解,識別可能影響演算法效能的關鍵因素和環境是至關重要的。

因此,受文獻[50]的啟發,我們定義一個擴充套件的視訊屬性集合,用於代表特殊情況,如快速運動,遮擋和雜亂背景這些典型的視訊分割挑戰。

對應的屬性陳列在下表。

視訊屬性
ID Description 描述

BC

Background Clutter. The back- and foreground regions around the object boundaries have similar colors (\chi ^2over histograms). 複雜的背景。在目標邊界附近的背景前景區域有相似的顏色。
DEF Deformation. Object undergoes complex, non-rigid deformations. 形變。目標存在複雜的非剛性的形變。
MB Motion Blur. Object has fuzzy boundaries due to fast motion. 運動模糊。由於快速的運動,目標邊界模糊。
FM Fast-Motion. The average, per-frame object motion, computed as centroids Euclidean distance, is larger than \tau_{fm} = 20 pixels. 快速運動。目標平均的幀間運動距離大於20畫素,距離定義為質心的歐幾里得距離。
LR Low Resolution. The ratio between the average object bounding-box area and the image area is smaller than tlr = 0.1. 低解析度(小目標)。平均目標邊框區域與影象區域的比值小於tlr = 0.1。
OCC Occlusion. Object becomes partially or fully occluded. 遮擋。目標部分或全部被遮擋。
OV Out-of-view. Object is partially clipped by the image boundaries. 視野之外。目標被影象邊框裁剪了部分,即只有部分目標處於視野中。
SV Scale-Variation. The area ratio among any pair of boundingboxes enclosing the target object is smaller than \tau_{sv} = 0.5. 尺度變化。存在一對包圍目標物件的邊界框(兩幀),他們的面積比小於0.5。
AC Appearance Change. Noticeable appearance variation, due
to illumination changes and relative camera-object rotation.
外觀變化。由光照變化和相對的相機-目標旋轉導致的顯著外觀變化。
EA Edge Ambiguity. Unreliable edge detection. The average groundtruth
edge probability (using [11]) is smaller than \tau _{e}= 0.5.
邊沿模糊。不可靠的邊沿檢測。平均真值邊界的概率小於0.5.
CS Camera-Shake. Footage displays non-negligible vibrations. 相機抖動。畫面顯示不可忽略的振動。
HO Heterogeneus Object. Object regions have distinct colors. 顏色不均勻的目標。目標區域有不同的顏色。
IO Interacting Objects. The target object is an ensemble of multiple,
spatially-connected objects (e.g. mother with stroller).
互動的物件。目標物件是多個空間連線的物件(例如母親和嬰兒車)的集合。
DB Dynamic Background. Background regions move or deform. 動態背景。背景區域移動或者形變。
SC Shape Complexity. The object has complex boundaries such as
thin parts and holes.
複雜形狀。目標有複雜的邊界,比如很細的部分或者洞。

 

這些屬性並不具備排他性,因此一個視訊序列可以被標註多個屬性。他們在資料集中的分佈展示在下圖左中,圖右顯示他們兩兩之間的依賴關係。註釋使我們能夠將效能分析解耦到具有主要特徵的不同組中(例如遮擋),從而更好地理解每種方法的優缺點。

4.實驗驗證

為了判斷分割的質量,如何選擇合適的度量標準在很大程度上取決於最終應用程式的最終目標。

直觀上講,當視訊分割主要用於更大處理管道中的分類器時,例如解析大型資料集時,強調錯誤標記的畫素的最少數量是非常有意義的。

另一方面,在視訊編輯應用中,輪廓的準確性和結果在時間域上的穩定性是最重要的,因為這些屬性通常需要最艱苦和耗時的手工輸入。

為了全面地涵蓋上述方面,我們使用三個互補的誤差指標來評估視訊分割結果。

我們在4.1節中描述了度量標準,並在4.2節中對它們的互補屬性進行了實證驗證。

4.1度量標準選擇

在有監督的評估框架中,給定一個特定幀上的groundtruth-mask G和一個輸出的分割結果M,任何評估措施最終都必須回答一個問題,即M如何適合G。

在[37]中,對於影象,可以使用兩個互補的觀點,基於區域和基於輪廓的度量。

由於視訊將靜態影象的維數擴充套件到時間,因此還必須考慮結果的時間穩定性。

我們的評估基於以下測量。

區域相似度(Region Similarity \mathcal{J}

為了測量基於區域的分割相似度,即錯別字畫素的數量,我們使用Jaccard索引\mathcal{J}

\mathcal{J}定義為估計分割和真值掩膜之間的IoU(Intersection over Union)。

自從在PASCAL VOC2008目標跟蹤挑戰中首次出現以後,Jaccard索引已經被廣泛應用。

Jaccard索引提供了關於錯誤分類畫素的、直觀的和尺度不變的資訊。

給定輸出分割M和真值掩膜G,Jaccard索引定義為:\mathcal{J} = \frac{M\cap G}{M\cup G}

邊沿精度(Contour Accuracy \mathcal{F}

從基於輪廓的角度來看,可以將M解釋為一組限定掩模空間範圍的閉合輪廓c(M)。

因此,通過一個二分圖匹配以提高對小誤差的魯棒性,我們可以比較c(M)c(G)的邊緣點計算基於輪廓的精度P_c和召回R_c

我們認為F-score \mathcal{F}可以取得精度和召回之間較好的權衡,定義為:\mathcal{F} = \frac{2P_{c}R_{e}}{P_{c}+R_e}

為了提高效率,在我們的實驗中,我們使用形態學運算元近似替代了二分匹配。

時間穩定性(Temporal stability \mathcal{T}

直觀地, \mathcal{J}測度了兩個掩膜間畫素的匹配度,\mathcal{F}測量了邊緣的精度。

但是,結果的時域穩定性是視訊物件分割中的一個相關重要的方面,由於物件形狀的演化是識別和抖動的一個重要線索,不穩定的邊界在視訊編輯應用中是不可接受的。

因此,我們還引入了一種時間穩定性測量方法來懲罰這種不期望的效果。

關鍵的挑戰是區分物體的可接受的運動和不需要的不穩定性和抖動。

為此,我們估計了在一幀掩碼轉換到下一幀所需的變形。直觀地說,如果轉換是平滑和精確的,結果可以認為是穩定的。

在形式上,我們將幀t的掩膜M_t轉換為代表其輪廓的多邊形P(M_t)。然後,我們使用形狀上下文描(SCD)[3]述符描述每個點p^i_t\in{P(M_t)}。接下來,我們將匹配設定為動態時間扭曲(DTW)[39]問題,是我們尋找p_t^ip_{t+1}^j之間的匹配,它最小化了匹配點之間的SCD距離,同時保持了點在形狀中出現的順序。

每匹配點的平均成本作為時間穩定性\mathcal{T}的度量。直觀上,匹配將補償運動和小的變形,但它不會補償曲線的振盪和誤差,這是我們想要測量的。遮擋和非常強的變形會被誤解為輪廓不穩定,因此我們在沒有這種影響的情況下計算序列子集的測量值。

 

4.2指標之間的關係

相關性

從結果統計圖中可以看出\mathcal{J}\mathcal{F}之間有明顯的線性相關。\mathcal{J}\mathcal{T}之間則沒有。

差異性

左圖結果\mathcal{J}低但\mathcal{F}高,右圖\mathcal{J}高但\mathcal{F}