DeepFashion2資料集:87.3萬對買家秀-賣家秀影象+海量標註
近年來,由於在產業中的巨大潛力,時尚影象分析成為了活躍的研究課題。但是,由於巨大的變形、遮擋,以及消費者和商業影象之間存在的服裝域的差異,在實際應用中,理解時尚影象仍然是一個挑戰。一些挑戰可能根植於最近的基準和實際場景之間的差異。例如,現有的最大的時尚資料集 DeepFashion 就有其自身的缺點,比如說每個影象只有一件服裝,稀疏的標記和姿態定義(每個服飾類別會共享 4~8 個關鍵點),如圖 1.(a) 所示,沒有每個畫素的掩膜標註。
圖 1.DeepFashion(a)和 DeepFashion 2(b)的對比。(a)每幅影象只有一件衣服,用 4~8 個稀疏標誌標註。邊界框是基於標籤標記估計出來的,使得它們看起來很亂。在圖(b)中,每張影象最少有一件服飾,最多有七件服飾。每件服飾都被手動標記了邊界框、掩膜和密集的標註(平均每件服飾 20 個標記),還有賣家秀-買家秀影象對。
為了解決上述缺陷,這項工作提出了 DeepFashion2,這是一個大規模的基準集,具有全面的任務和時尚影象理解的標註。DeepFashion2 包含 49.1 萬張影象,包含 13 種流行的服飾類別。在這個資料集上定義了全面的任務,包括服飾檢測和識別、標記和姿態估計、分割以及驗證和檢索。所有的這些任務都有豐富的標註支援。
例如,DeepFashion2 總共有 80.1 萬件服飾,如圖 1(b)所示,其中每件都標有比例、遮擋、縮放、視角、邊界框、密集標註和畫素掩膜。這些服飾可以被歸類為 4.38 萬個服飾標識,其中服飾標識代表一類具有幾乎相同裁剪、圖案和設計的服飾。擁有同一類服飾標識的影象既有買家秀,也有賣家秀,賣家秀和買家秀組成影象對。該資料集中總共有 87.3 萬買家秀-賣家秀影象對,比 DeepFashion 大 3.5 倍。上述詳細的註釋助力開發強大的演算法來理解時尚影象。
這項工作有三個主要貢獻:(1)構建了具有全面任務和標註的大規模時尚資料集基準來推動時尚影象分析。DeepFashion2 擁有最豐富的任務定義和最大數量的標籤。它的標註至少是 DeepFashion[14] 的 3.5 倍,是 ModaNet [21] 的 6.7 倍,是 FashionAI [1] 的 8 倍。(2)在本文提出的資料集上仔細定義了全部任務。例如,據本文研究者所知,服飾姿態估計是首次在文獻中通過對 13 個類別的姿態和標記進行定義來提出,這些姿態要比人類的姿態更多樣化,更加豐富。(3)研究者用 DeepFashion2 廣泛地評測了 Mask R-CNN [6],這是最近提出的一個用於視覺感知的框架。本文還提出了一個新的 Match R-CNN 來聚合所有從服飾類別、姿態以及掩膜中學習到的特徵,用一種端到端的方式解決服飾影象檢索的問題。DeepFashion2 和 Match R-CNN 的實現即將釋出。
論文:DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images
論文地址: https://arxiv.org/abs/1901.07973
摘要:理解時尚影象已經通過通過具有豐富的標註的基準資料集進行了提升,例如 DeepFashion,它的標籤包含服飾類別、標記和賣家秀-買家秀影象對。但是,DeepFashion 有它不可忽視的問題,例如,一副影象只有一個單獨的服飾,稀疏的標記(僅有 4~8 個),以及沒有畫素掩膜,這使得它與現實場景之間存在巨大的差距。我們通過提出 DeepFashion2 填補這種差距,以解決這些問題。它是一個含有 4 個任務的多功能基準集,包括服飾檢測、姿態估計、分割以及檢索。它有 80.1 萬件服飾,每件都有豐富的標註,例如風格、比例、視角、遮擋、邊界框、密集標記和掩膜。其中也有 87.3 萬對買家秀-賣家秀影象。我們還提出了一個強大的基線模型,叫做 Match R-CNN,它是在Mask R-CNN的基礎上構建的,用來以一種端到端的方式解決上述四種任務。我們用不同的標準在 DeepFashion2 上開展了評估。
2 DeepFashion2 資料集和基準
與現有的時尚資料集相比,DeepFashion2 有 4 個獨特的特點:
-
大規模:它包括 49.1 萬張影象,總共是 4.38 萬個服飾標識(購物店展示的獨特服飾)。
-
多功能:DeepFashion2 面向多種時尚理解任務。它豐富的標註支援服飾檢測和分類、密集標註和姿態檢測、例項分割以及跨域例項級別的服飾檢索。
-
表達能力:這主要反映在兩個方面。首先,單幅影象中存在多個服飾;其次,本研究有 13 種不同類別的標識和姿態。
-
多樣性:研究者通過控制它們的 4 個屬性變數來收集資料,包括尺寸、遮擋、縮放和視角,如圖 2 所示,這使得 DeepFashion2 成為了一個具有挑戰性的基準。
圖 3(a)展示了 DeepFashion2 中不同變數屬性的統計資料。(b)是 DeepFashion2 中 13 種類別的數目。(c)展示了 DeepFashion[14] 中類別的含糊不清。例如,很難區分開衫(cardigan)和外套(coat),很難區分慢跑者(joggers)和運動褲(sweatpants)。這在給資料打標籤的時候會造成歧義。(d)上:出現複雜的姿態時,掩膜可能不準確。下:掩膜都是由人工精調的。
3 Match R-CNN
研究者在 DeepFashion2 上基於 Mask RCNN [6] 提出了一個強大的基線模型,名為 Match R-CNN,它是一個端到端的訓練框架,聯合學習了服飾檢測、標誌估計、例項分割和買家秀-賣家秀的檢索。
圖 4.Match R-CNN 的三個主要組成部分:一個特徵提取網路(FN)、一個感知網路(PN)以及一個 match 網路(MN)。
4 實驗
研究者通過評估Mask R-CNN[6] 和 Match R-CNN,在多項任務中展示了 DeepFashion2 的有效性,包括衣物檢測和分類、標誌估算、例項分割和買家秀-賣家秀服飾檢索。
表 3: 在不同的驗證子集上使用Mask R-CNN[6] 的標誌估計,包括尺寸、遮擋、縮放和視角。
圖 5:(a)展示了服飾檢測失敗的例子;(b)展示了服飾分割失敗的例子。在(a)和(b)中,缺失的邊界框用紅色繪製。不準確的掩膜也在圖(b)中用箭頭標出來了。
圖 6:(a)展示了標誌和姿態估計的結果。(b)展示了服飾分割的結果。(c)展示了服飾查詢的 top 5 的結果。第一列是買家秀影象,它具有由檢測模組預測的邊界框,第二列到第六列展示了賣家秀影象檢索結果。(d)在整體查詢驗證集上的檢索精度,(1)是檢測框,(2)是真實框。
表 4: 在不同的驗證集上使用Mask R-CNN[6] 進行服飾分割的結果,包括尺寸、遮擋、縮放和視角。