1. 程式人生 > >【GAN ZOO閱讀】Unsupervised Pixel–Level Domain Adaptation with GAN 使用GAN的無監督的畫素級域適應

【GAN ZOO閱讀】Unsupervised Pixel–Level Domain Adaptation with GAN 使用GAN的無監督的畫素級域適應

原文連結,引用請標明出處
部分譯文參考自 https://blog.csdn.net/forever1993/article/details/78405280

摘要

收集註釋良好的影象資料集來訓練現代機器學習演算法對於許多工而言過於昂貴。 一個有吸引力的替代方案是渲染資料,並在其中自動生成ground truth。不幸的是,純粹基於渲染影象訓練的模型通常無法推廣到真實影象。 為解決這個缺點,先前的工作引入了無監督的域自適應演算法,該演算法試圖在兩個域之間對映一些表示,或提取域不變的特徵。在這項工作中,作者提出了一種新方法,以監督的方式學習畫素空間中從一個域到另一個域的變換。本文基於生成對抗網路(GAN)的模型使源域影象看起來好像是從目標域中繪製的。本文的方法不僅產生合理的樣本,而且在許多無監督的域適應場景中也以大幅度優於最先進的樣本。 最後,作者證明了適應過程推廣到訓練期間看不到的物件類。

1 引言

大型且註釋良好的資料集,例如ImageNet[9],COCO[29]和Pascal VOC[12] 被認為是推動計算機視覺研究的關鍵。但建立這樣的資料集非常昂貴。一種替代方案是使用合成數據進行模型訓練。計算機視覺中的長期目標是使用遊戲引擎或渲染器來生產幾乎無限量的產品標記資料。 實際上,某些研究領域,例如機器人任務的深度強化學習,有效地要求模型在合成領域進行訓練,因為在現實環境中的訓練可能過於昂貴 [38, 43]。因此,人們對合成領域的訓練模型以及在實際環境中應用它們產生了新的興趣 [8, 48, 38, 43, 25, 32, 35, 37]。不幸的是,對合成資料進行天真訓練的模型通常不會推廣到真實影象。

該問題的解決方案是使用無監督域適應。 在此設定中,我們希望將從我們已標記資料的源域中獲取的知識傳輸到我們沒有標籤的目標域。 以前的工作要麼嘗試查詢從源域的表示到目標的表示的對映 [41], 或尋求找到兩個域之間共享的域不變表示[14, 44, 31, 5]. 雖然這些方法已經取得了良好的進展,但它們仍然不能與僅在目標領域進行過培訓的純監督方法相提並論。

在這項工作中,我們訓練模型以從源域更改影象,使其看起來好像是從目標域中取樣,同時保持其原始內容。 我們提出了一種新穎的基於生成對抗網路(GAN)的架構,能夠以無人監督的方式學習這種轉換,即不使用來自兩個域的相應對。 本文無監督畫素級域自適應方法(PixelDA)與現有方法相比具有許多優勢:

與特定任務的體系結構分離: 在大多數域自適應方法中,域自適應過程和用於推理的任務特定體系結構緊密整合。 無需重新訓練整個域適應過程,就無法切換模型的任務特定元件。 相比之下,因為我們的PixelDA模型在畫素級別將一個影象對映到另一個影象,所以我們可以更改任務特定的體系結構,而無需重新訓練域適配元件。

跨標籤空間的泛化: 因為先前的模型將域適應與特定任務相結合,所以源域和目標域中的標籤空間被約束為匹配。 相比之下,我們的PixelDA模型能夠處理測試時目標標籤空間與訓練時標籤空間不同的情況。

訓練穩定性: 依賴某種形式的對抗性培訓的領域適應方法 [5, 14] 對隨機初始化很敏感。 為了解決這個問題,本文結合了針對源影象和生成影象進行訓練的任務特定損失以及允許我們避免模式崩潰的畫素相似性正則化 [40] 並穩定培訓。通過這些工具能夠在模型的不同隨機初始化中減少相同超引數的效能差異(第四章)。

資料增強: 傳統的域自適應方法僅限於從有限的源和目標資料集中學習。然而,通過調節源影象和隨機噪聲向量,本文的模型可用於建立其類似於目標域的影象的大量隨機樣本。

可解釋性: PixelDA(域適應影象)的輸出比域自適應特徵向量更容易解釋。

為了證明本文策略的效果,本文專注於物件分類和姿態估計的任務,其中感興趣的物件在給定源域和目標域影象的前景中被給出。本文的方法在一系列用於物件分類和姿態估計的資料集上優於最先進的無監督域自適應技術,同時生成看起來與目標域非常相似的影象(參見 圖1 )。
在這裡插入圖片描述
圖1 使用本文的模型生成的RGBD樣本與來自Cropped Linemod資料集的真實RGBD樣本 [22, 46]的對比。
每個子圖的頂行是影象的RGB部分,底行是相應的深度通道。每列對應於資料集中某個特定物件。更多細節見第四章。

2 相關工作

學習無監督的域適應是一個開放的理論和實踐問題。雖然以前的工作很多,但本文的文獻綜述主要集中在卷積神經網路(CNN)方法,因為它們在問題上具有經驗優勢 [14, 31, 41, 45]。

無監督域適應: Ganin等[13, 14]和Ajakan等人[3]提出了域-對抗神經網路(DANN):一種經過訓練可以提取領域不變特徵的架構。他們的模型的前幾層被共享到兩個分類器:第一個在提供源資料時預測特定於任務的類標籤,而第二個分類被訓練以預測其輸入的域。DANN針對域分類器特定的引數最小化域分類損失,同時相對於兩個分類器共有的引數最大化它。通過使用梯度反轉層,可以在一個步驟中實現這種minimax優化。雖然DANN的域自適應方法是使從兩個域提取的特徵相似,但本文的方法是使源影象看起來好像它們是從目標域中提取的。Tzeng等[45]和龍等人[31]提出的DANN變種中域分類損失的最大化被從每個域的樣本集中提取的特徵之間計算最大平均差異(MMD)度量的最小化所取代[20]。Ghifary等提出了一種替代模型,在這個模型中源域的任務損失與目標域的重建損失相結合,這匯出了學習域的不變特徵。Bousmalis等[5]引入一個模型,該模型明確地將每個域專用的元件與兩個域共有的元件分開。它們利用每個域的重建損失,鼓勵域不變性的相似性損失(例如DANN,MMD)和與共同和私有表示元件互補的差異損失。

其他相關技術涉及在特徵級別學習從一個域到另一個域的對映。在這種設定中,在域自適應優化期間固定特徵提取流水線。這種設定已經應用於各種基於非CNN的方法中[17, 6, 19]以及最近的基於CNN的相關對齊(CORAL)[41]演算法。

生成對抗網路: 本文的模型使用GAN[18]以源影象和噪聲向量為條件。最近的其他工作也試圖使用以影象為條件的GAN。 Ledig等[28]使用了影象為條件的GAN用於超解析度生成。Yoo等[47]提出通過對模特和所穿的相應的衣服對進行訓練,從穿著它們的模特的影象中產生生成衣服影象的任務。以影象和噪聲向量為條件的方法,和本文的方法都不適用於完全不同的問題空間。

與本文最相似的工作是劉和Tuzel[30]他們引入了一對耦合GAN的架構,一個用於源,一個用於目標域,其生成器共享其高層權重,其判別器共享其低層權重。以這種方式,它們能夠生成相應的影象對,這種方法可以用於無監督的域自適應。

風格轉移: Gatys等人的工作中[15, 16]提出了一種風格轉移方法,在保持影象內容固定的同時將影象轉移到另一種樣式。 該過程需要反向傳播回畫素。約翰遜等[24]提出了一種前饋式轉移模型。他們訓練以影象為條件的網路以產生輸出影象,其在預訓練模型上的啟用類似於輸入影象(高階內容啟用)和單個目標影象(低階啟用)。然而,這兩種方法都經過優化,可以複製單個影象的樣式,而本文的工作試圖複製整個影象域的風格。

3 模型

作者首先在影象分類的語境中解釋無監督畫素級域自適應模型(PixelDA),儘管本文的方法並不特定於此任務。給定源域中的標記資料集和目標域中的未標記資料集,作者的目標是訓練來自源域資料的分類器,並將其泛化到目標域。以前的工作使用單個網路執行此任務,該網路執行域自適應和影象分類,使域自適應過程特定於分類器體系結構。本文的模型將域適應過程與分類過程這一特定任務分離,因為它的主要功能是調整源域中的影象,使它們看起來好像是從目標域中取樣的。適應過程一旦進行,便可以訓練任何現成的分類器以執行手頭的任務,就像不需要域適配一樣。值得注意的是,本文假設域之間的差異主要是低級別的(由於噪聲,解析度,光照,顏色)而不是高階(物體型別,幾何變化等)。

更正式地說,令 X s = { x i s , y i s } i = 0 N s X^s= \{x_i^s,y_i^s\}_{i=0}^{N^s} 代表標記來自源域的 N s N^s 已標註的樣本資料集,並令 X t = { x i t } i = 0 N t X^t=\{x_i^t\}_{i=0}^{N^t} 代表來自目標域的無標籤資料集 N t N^t 。本文的畫素自適應模型由生成函式 G ( x s , z ; θ G ) x f G(x^s,z;θ_G)→x^f 組成,由 θ G θ_G 引數化,將源域影象 x s X s x^s\in X^s 和噪聲向量 z p z z\in p_z 對映到適應的或假的影象 x f x^f 。給定生成函式 G G ,可以建立任何大小的新資料集 X f = G ( x s , z ) , y s X^f=G(x^s,z),y^s 。最後,給定適應的資料集 X f X^f ,可以訓練針對特定任務的分類器,就如同訓練和測試資料來自相同的分佈。

3.1 學習

為了訓練本文的模型,作者採用生成對抗目標來幫助 G G 生成與目標域類似的影象。在訓練期間,生成器 G ( x s , z ; θ G ) x f G(x^s,z;θ_G)→x^f 將源影象 x s x^s 和噪聲向量 z z 對映到適應影象 x f x^f 。此外,通過判別器函式 D ( x ; θ D ) D(x;θ_D) 來增強模型,判別器函式 D D 輸出從給定目標域取樣的影象 x x 的似然性 d d 。判別器試圖區分由生成器產生的“假”影象 X f X^f 和來自目標域 X t X^t 的“真實”影象。值得注意的是,與標準GAN公式[18]相反,GAN的生成器僅受噪聲向量調節,而本文的生成器以噪聲向量和來自源域的影象為條件。除了判別器之外,本文還使用分類器 T ( x ; θ T ) y ^ T(x;θ_T)→\hat y 來增強模型,其將任務特定標籤 y ^ \hat y 分配給影象 x { x f , x t } x\in \{x^f,x^t\}

本文的方法優化以下的minimax目標:
(1) min θ G , θ T max θ D α L d ( D , G ) + β L t ( G , T ) \min_{\theta_G,\theta_T}\max_{\theta_D} \alpha\mathcal L_d(D,G)+\beta\mathcal L_t(G,T)\tag{1}

其中 α \alpha β \beta 是控制損失之間相互作用的權值。 L d \mathcal L_d 表示以下的域損失:
(2) L d ( D , G ) = E x t [ log D ( x t ; θ D ) ] + E