[ZZ] 多領域視覺數據的轉換、關聯與自適應學習

阿新 • • 發佈：2017-10-08

matching vld 性別 .science 多核性能調整輸出求解

哈工大左旺孟教授：多領域視覺數據的轉換、關聯與自適應學習

http://blog.sciencenet.cn/home.php?mod=space&uid=3291369&do=blog&quickforward=1&id=1074540

整理：茍超

1.基於多領域視覺數據學習

我們首先討論多領域的視覺數據。對於現在來說，它應該是我們可以用各種不同傳感器，比如RGB和深度攝像機、紅外、超光譜等來獲取的數據。另外一個就是可以從不同視角去拍攝獲取。此外，我們可以用語言來描述某個場景或者物體，也可以用聲音、視頻去記錄。同樣我們也可以用真實物理世界、VR、AR等方式去重現展示，從而形成視覺數據描述。

那麽我們怎麽去利用這些多領域視覺數據來更有效率的去解決問題？第一個就是我們可以把不同領域的數據融合在一起，然後來做一些事情。如果這種融合是在這種學習識別和分類這種融合的話，那麽它肯定會對識別和分類的性能會有幫助。此外這種融合可以讓它在原始數據基礎上得到一些比較好的視覺效果，或者是得到一些就是我們想要的一些視覺特效。例如Suwajanakorn等人在今年Siggraph上的文章實現輸入音頻和奧巴馬圖像，輸出合成的視頻，使得嘴型和音頻匹配。另外一個融合可以通過遷移學習實現。今年李開復在一個talk就提出過，深度學習之後是增強學習，然後就是遷移學習。王坤峰等提出的平行視覺也可以從該角度來理解，就相當於說我們先模擬得到一個場景，在這個場景訓練一個模型，然後最後再把這個實驗的模型在應用到實際，中間再會有一些交互平行執行使得模型優化。

基於學習的方法需要大量的訓練數據，而手動標註耗時費力，我們可以融合仿真的帶標註信息三維數據和無標簽信息的虛擬數據來解決問題。在遷移學習中，為了減小真實數據和仿真數據之間的偏差，生成對抗網絡（GANs）提供了一種有效的解決方式。此外，GAN還可以按照真實數據分布來生成對應的逼真圖像，從而改善訓練模型的泛化能力。

2.改善GAN的學習能力

Gooodfellow等在2014年提出了生成對抗網絡（GANs），它包含一個生成網絡和一個判別網絡。生成網絡不斷更新使得網絡生成的圖像更加逼真，而判別網絡的目的是盡量正確的判斷數據來源於真實數據還是生成網絡生成的數據。

GAN的目的是利用生成網絡按照真實數據的分布來生成逼真數據，對於GAN的學習，它是一個最大-最小優化問題。我們先從最大化均方分布（Maximum Mean Discrepancy,MMD）來開始討論優化改進GAN的學習能力，Borgwardt在06年提出MMD，就是如果假設有兩個分布，如果這兩個分布相同，那麽這兩個分布的均值一定相同。但是如果這兩個分布的數學期望相同，並不表示兩個分布相同。倘若我們將所有分布限制在希爾伯特空間，且小於等於1，此時如果其數學期望相同，那麽可以證明這兩個分布是相同的。

後面15年Li等人提出GenerativeMoment Matching Networks (GMMN)來利用核方法優化求解問題。Salimans等在2016年提出改進的GAN，將問題限制在Lipschitz連續性上，從而解決梯度消失的問題。Arjovsky等人提出Wasserstein GAN，利用Wasserstein距離來度量。另外一個優化方向可以從流行學習角度出發，從而考慮兩個分布之間的局部關系。

3.圖像轉換

Image Translation可以分為有監督和無監督兩種方式。首先就是有監督，最開始的時候是MSE和Perceptual loss，後來有了GAN，更多的工作開始基於GAN來實現。ConditionalGAN的視覺效果較好，但仍然有一點局限性，我們還可以基於內部和外部的約束去優化模型結構。有監督的ImageTranslation主要是圖像復原，圖像超分辨率，街景分割，邊緣檢測等。

前面提到的基於MSE 定義的loss來實現Image Translation具有一定局限性，它會過於平滑圖像，同時還會損失邊緣和紋理細節信息。利用深度網絡,比如VGG來實現基於perceptualloss的圖像轉換也會損失邊緣和紋理細節信息，還會引入一些人工仿真場景信息。Ledig等人在今年CVPR上發表了文章將Perceptual loss和GAN結合，從而使得轉換更為逼真。如果按照前面的這些方法來實現，我們需要設計用什麽網絡來實現計算Perceptual loss。那麽如何避免去顯示定義網絡來實現Perceptualloss？Conditional GAN就可以實現，它定義正對(輸入和真實圖像)和反對（輸入和仿真圖像），然後學習網絡來實現正確判斷正反對。這樣就可以將perceptual隱式嵌入到網絡中，這種conditional GAN方法是當時實現效果最好的。

另一種就是無監督圖像轉換，比如馬到斑馬的轉換，四季場景變化等。還有一個例子就是人臉標簽轉換，比如性別、是否戴眼鏡等。一個典型工作是今年CVPR上的Learning Residual Images(Shen &Liu),他們提出利用一個殘差網絡來學一個臉部標簽（戴眼鏡），同時利用另外一個殘差網絡來去掉眼鏡，訓練過程中這兩個網絡一起學習，使得它可以從戴眼鏡到不戴眼鏡，同時也可以實現從不戴眼鏡到戴眼鏡，這就相當於一個環，可以實現遍歷，最終實現一個可以完成Faceattribute transfer的模型。後面還有相似的工作比如DualGAN (Yi et al., Arxiv 2017)和Cycle-Consistentsupervision (Zhu et al., Arxiv2017)等。

還有Facebook的一個工作，這個比較明確，就是說這裏面有一個encoder，最後這個output需要設置什麽樣就是什麽樣。同時如果想調整這個Y得到目標的話，需要滿足這個E（x）和Y是獨立。這樣的網絡有一個很大好處就是它學一個網絡，可以任意改變人臉的一個attribute即可，比如性別、年齡、眼鏡等。這種網絡結構是一個比較簡潔比較漂亮的模型。

4.深度領域適應

下面講講Deep Domain Adaptation。在GAN出來之前，該領域已經做了十來年了。傳統Domain Adaptation目標主要是指在領域A學得的模型，用於領域B。為了實現這個目標，我們設定了任務。第一個任務就是有監督的這個類型，在這種情況下就是說A裏頭也有label，B領域裏面也有。還有一種就是半監督，即A裏面有label，而B領域裏面沒有或者只有少量label。最後一個就是無監督的領域適應，領域A和B都沒有任何標簽信息。無監督是最難也是最有意義的。後來隨著deep learning的巨大成功，被逐步引入domain adaptation， Donahue等人在ICML2014提出一些有監督是深度特征可以減小不同domain之間的bias。後來(Yosinski et al., NIPS 2014)提出深度特征不能解決domainadaptation問題，從雙向的角度出發，domain adaptation是需要的。最開始利用Maximum Mean Discrepancy (MMD) 來實現，主要用線性核，後來將CNN引入實現非線性映射。後來（Grettonet al., NIPS 2012）提出用多核方法實現domain adaptation，從對抗思想來理解，先固定核函數參數，更新特征提取模型的參數來最小化MMD，然後固定特征提取模型參數，更新核函數參數來最大化MMD。

通過2014年的討論，大家開始從無監督方向考慮，並結合GAN來做研究。時間是無監督DA就是利用合成數據學得模型再利用到真實環境中去，Render for CNN (Su et al., ICCV 2015)就是這樣一個工作，如下圖所示，他們提出在虛擬仿真圖像訓練模型，用於實際中估計物體姿態。上述從特征方面來實現domain adaptation，還有一個方面是從圖像像素級方面來考慮實現，比較典型的一個工作就是Apple的第一篇AI論文，發表於幾年的CVPR上。他們提出SimGAN，這裏的輸入為仿真圖像，利用對抗網絡學習來得到一個Refiner網絡，從而使得生成圖像既有仿真圖像的標簽數據，又有真實圖像的紋理外觀信息。

技術分享