1. 程式人生 > >「Transfer Learning」Note on CyCADA: Cycle-Consistent Adversarial Domain Adaptation

「Transfer Learning」Note on CyCADA: Cycle-Consistent Adversarial Domain Adaptation

雖然CyCADA[1]被AdaptSegNet超越了,但是兩者可以結合在一起,進一步提升域適配中語義分割的效能。在沒有AdaptSegnNet的時候,CyCADA是很好的模型。在CyCADA論文的第三個版本中,發現DRN-26[2]比AdaptSegNet中DeepLabv2-ResNet-101-pre-trained-ImageNet的分割效果要好(67.4 vs 65.1 mIoU)。

作者:Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei A. Efros, Trevor Darrell

本博文之前閱讀的版本為ArXiv v1,現在閱讀ICML版本。

0 摘要

提及基於特徵空間方法難以理解,甚至有時候無法捕獲畫素級低階域偏移。基於影象空間方法有時候無法包含與終端任務相關的高階語義知識。因此,論文提出兩種對齊,其一為生成影象空間對齊(generative image space alignment),其二為隱含表徵空間對齊(latent representation space alignment)。簡單來說,就是結合RGB值級(對應醫學灰度影象,就是灰度值)和特徵級進行域適配。

1 介紹

指出特徵無監督域適配方法的兩個limitations,其一為對齊邊緣分佈/條件概率分佈無法強加任何語義一致性,即車的目標特徵可能對映為單車的源特徵;其二我對齊較高階的深度表徵無法對低階外觀進行建模。 指出生成畫素級域適配方法

的一些問題,比如,在較小的影象尺寸和較小的域偏移情況下工作、CycleGAN沒有考慮終端任務而可能無法總是保持語義資訊。因此提出CyCADA。CyCADA利用了畫素級特徵級的表徵(representations),以及語義損失迴圈一致性(cycle-consistency),見下表。

表 1

2 CyCADA

在CyCADA論文中,定義了一種問題——無監督適配,即僅提供源資料 XSX_S 和源標籤 YSY_S,以及目標資料 XTX_T,沒有目標標籤或者不利用它。問題的目的是學習一個模型 fTf_T,它可以正確預測目標資料XTX_T的標籤。

預訓練源任務模型

因為手頭上有源資料 XSX_S 和源標籤 YSY_S,所以可以訓練一個源模型fSf_S,像平常訓練一個分割網路。公式見論文,此處忽略。

畫素級適配

兩個LGANL_{GAN},一個LcycL_{cyc},一個LsemL_{sem}。在圖1中的綠色和紅色部分,就是一個CycleGAN。在論文中,加入語義一致性(semantic consistency)是一個貢獻,因為已知源標籤。語義損失為: Lsem(GSTGTS,XS,XT,fS)=Ltask(fS,GTS(XT),p(fS,XT))L_{sem}(G_{S \rightarrow T}, G_{T \rightarrow S}, X_S, X_T, f_S) = L_{task}(f_S, G_{T \rightarrow S}(X_T), p(f_S, X_T)) +Ltask(fS,GST(XS),p(fS,XS))+ L_{task}(f_S, G_{S \rightarrow T}(X_S), p(f_S, X_S)) 這部分可見圖1的黑色部分。

特徵級適配

再加上一個畫素級的GAN損失。 完整的損失為: LCyCADA(fT,,XS,XT,YS,GST,GTS,DS,DT)=Ltask(fT,GST(XS),YS)L_{CyCADA}(f_T, ,X_S, X_T, Y_S, G_{S \rightarrow T}, G_{T \rightarrow S}, D_S, D_T) = L_{task}(f_T, G_{S \rightarrow T}(X_S), Y_S) +LGAN(GST,DT,XT,XS)+LGAN(GTS,DS,XS,XT)+LGAN(fT,Dfeat,fS(GST(XS)),XT)+ L_{GAN}(G_{S \rightarrow T}, D_T, X_T, X_S) + L_{GAN}(G_{T \rightarrow S}, D_S, X_S, X_T) + L_{GAN}(f_T, D_{feat}, f_S(G_{S \rightarrow T}(X_S)), X_T) +Lcyc(GST,GTS,XS,XT)+Lsem(GST,GTS,XS,XT,fS)+ L_{cyc}(G_{S \rightarrow T}, G_{T \rightarrow S}, X_S, X_T) + L_{sem}(G_{S \rightarrow T}, G_{T \rightarrow S}, X_S, X_T, f_S) 其中,第一項 Ltask(fT,GST(XS),YS)L_{task}(f_T, G_{S \rightarrow T}(X_S), Y_S) 表示,源影象 XSX_S 經過變換(全卷積網路?) GSTG_{S \rightarrow T} 偽目標影象, 然後該影象經過分割網路得到源預測結果,與源標籤 YSY_S 得到 LtaskL_{task} 損失;第二項 LGAN(GST,DT,XT,XS)L_{GAN}(G_{S \rightarrow T}, D_T, X_T, X_S) 表示,變換 GSTG_{S \rightarrow T} 根據源影象 XSX_S