1. 程式人生 > >論文閱讀筆記3——基於域適應弱監督學習的目標檢測Cross-Domain Weakly-Supervised Object Detection through Progressive Domain A

論文閱讀筆記3——基於域適應弱監督學習的目標檢測Cross-Domain Weakly-Supervised Object Detection through Progressive Domain A

本文是東京大學發表於 CVPR 2018 的工作,論文提出了基於域適應的弱監督學習策略,在源域擁有充足的例項級標註的資料,但目標域僅有少量影象級標註的資料的情況下,儘可能準確地實現對目標域資料的物體檢測。

■ 連結 | https://www.paperweekly.site/papers/2106

■ 原始碼 | https://github.com/naoto0804/cross-domain-detection

一、引出主題

雖然深度學習技術在物體檢測方面取得了巨大的成功,但目前的物體檢測技術主要面向的物件是真實場景下的影象,而對於像水彩畫這種非真實場景下的物體檢測任務來說,一般很難獲取大量帶有標註的資料集,因此物體檢測問題就變得比較棘手。

為解決這一問題,本文提出了基於域適應的弱監督學習策略,其可以描述為:(1)選取一個帶有例項級標註的源域資料;(2)僅有影象級標註的目標域資料;(3)目標域資料的類別是源域資料類別的全集或子集。

論文的任務就是在源域擁有充足的例項級標註的資料,但目標域僅有少量影象級標註的資料的情況下,儘可能準確地實現對目標域資料的物體檢測。這個任務的難點主要在於目標域沒有例項級的標註,因此無法直接利用目標資料集對基於源資料集訓練的模型進行微調。

針對這一問題,作者提出了兩種解決方法:

1. 域遷移(domain transform,DT):即利用影象轉換技術,如CycleGAN將源域資料轉換為和目標資料相似的帶有例項級的影象;

2. 偽標記(pseudo-labeling,PL):利用偽標記來對目標域資料產生偽例項級標註。兩種方法如圖 1 所示:

為驗證該策略的有效性,作者分別採集並手工標註了三個分別具有例項級標註的目標資料集:Clipart1k,Watercolor2k,Comic2k。

二、資料集描述

這篇文章最大的貢獻之處不僅僅在於其提出的基於弱監督學習的目標檢測方法,更重要的是作者所建立的資料集,為將來這方面工作的進行提供了資料支援。

在本文中,作者選取的源域資料集為 PASCAL VOC 資料集,同時作者收集並標註了 3 個目標域資料集,其示例如圖 2 所示。資料集的具體資訊如表 1 所示:

三、方法

本文的方法如圖 3 所示,首先我們對源域影象進行域遷移訓練得到域遷移影象,然後對於基於源域資料集訓練得到的模型,再通過域遷移影象對模型進行微調,最後再使用通過偽標記方法獲取的資料對模型進行進一步的微調。

域遷移(DT) 

正如前面所提到的,本文主要解決的問題是目標域和源域分佈不同的目標檢測問題,而這部分旨在通過變換將源域資料分佈變換為目標域分佈,本文作者使用的是 CycleGAN來實現這種變換。

偽標記(PL)

對於只用影象級標註(即每個影象上包含哪幾種類別)的目標域資料集,我們需要獲取其偽例項級標註。首先,對於目標域資料中的每一幅影象x,使用基於源域訓練的模型得到輸出 d=(p,b,c) ,其中b是得到的 bounding box,c是得到的類別,p是屬於該類的概率。根據這個結果,對於影象中所包含的每個類別,通過選取top-1概率的結果來作為目標影象的bounding box,從而來實現對目標影象的偽標註。

四、實驗

為證明方法的有效性,作者分別利用 PL、DT、DT+PL 的微調方法進行了實驗,在 Clipart1k 資料集上的實驗結果如表2所示。其中,基線(Baseline)是利用SSD300直接在目標域影象上進行實驗的結果,而理想情況(Ideal case)是利用帶例項級標註的目標域資料對模型進行微調的結果。此外,作者還利用基於弱監督檢測的方法 ContextLocNet、WSDDN及無監督域適應的方法ADDA來做對比實驗。

從表2可以看出,作者提出的微調策略能夠在檢測效能上有較大的提升。此外,從表2中可以看出經過DT變換的微調方法可以很大程度地提升檢測效能,而在不使用影象級標註的PL資料域進行微調的方法不僅不能提高效能,而且會導致效能有所下降,所以影象級的標籤對物體檢測是很重要的。

此外,作者在 YOLOv2及Faster R-CNN上進行了同樣的實驗,實驗結果同樣證明了該微調策略的有效性。實驗結果如表3所示:

為驗證本文方法的有效性,作者採用論文提供的方法對檢測效果進行分析,分析結果如圖4所示。從圖中可以看出基於DT 變換的微調模型能夠很好的提高物體檢測的效能,相對於DT來說,基於DT+PL 的微調策略能夠進一步地提高檢測的效能,尤其是在容易將物體誤分成不相似類別物體的分類任務上(Sim將物體識別成與該物體類似但不相同的類別,Oth將物體識別成其他不相似的類別)。這也進一步說明了為何影象級標註可以提高物體檢測的效能。

此外,作者還對另外兩個資料集進行了實驗,實驗結果分別如表4、5 所示:

表 4 

                     

表 5

五、總結

在本文中,作者為將當前的物體檢測技術應用到一些非現實場景,即缺少大量例項級標註的場景,如水彩畫的目標檢測等任務,而提出了一套全新的訓練策略,並建立了一些資料集來為將來這方面的工作做鋪墊。這項工作是非常有意義的,就人本身而言,我們不僅可以很好地分辨實際場景中的物體,同樣可以很好地檢測到一些例如動畫、水彩畫中的物體,即使有時我們很少接觸這些,而基於深度學習的物體檢測技術也應該具備這種能力。