1. 程式人生 > >Multi-Scale Guided Concurrent Reflection Removal Network

Multi-Scale Guided Concurrent Reflection Removal Network

gradient inference network(GiN):輸入是4通道張量,它是輸入混合影象及其對應梯度的組合.

The image inference network (IiN):以混合影象為輸入,提取描述全域性結構和高層語義資訊的背景特徵表示來估計B和R。

GIN網路用的是一個映象框架結構,即首尾結構對稱(分別對應編碼和解碼結構)。

編碼結構由五個卷積層構成,先一個步長1的卷積層,然後再一個步長2的卷積層。這種結構可以很好的逐步提取和降低樣本特徵。

解碼結構:特徵升取樣,然後組合重建輸出沒有反射影響的梯度。為了不丟失一些梯度資訊,一開始編碼的特徵資訊和解碼層的資訊相連線(擁有相同的空間解析度,即影象大小)

最近的研究顯示,VG16網路培訓高水平計算機視覺中的大量資料任務可以很好地推廣到逆成像任務,例如陰影去除(19)和顯著性檢測。也就是說VGG16不止適用於影象識別,對於生成影象其實也是有很好的效果的!這裡他把vgg16原本最後應該的全連線層圖換成了3*3的卷積層。然後拿resnet-v2中的結構來做提取特徵層。但是在其他地方這個結構一般不被用來做從影象到影象的問題。因為池化層會破壞一些特徵資訊。所以作者進行了修改,原本模型中的池化層,分別被1*1和7*7的卷積層給替代了。第二所有卷積層的步長都為1.

每個GIN網路中反捲積輸出的tensor與liN網路中反捲積輸出相級聯。

損失函式的定義,用結構相似形來,本來值越高,代表相似性越好,但為了適合網路優化,故用1-.

還用了L1 loss來平衡亮度和顏色(即兩幅圖亮度和顏色的差別也不能太大)

由於gin網路中是邊界資訊(黑白的),所以這裡的損失函式就可以忽略對比度和亮度的差異了,修改前面的SSIM函式,去除其中有關亮度的資訊,得到SI.

先GIN網路獨自訓練40代,學習率為10-4。然後將GIN網路與liN網路一同訓練,一開始要收斂快些,所以把學習率調大一些,後面學習率逐漸減小。作者還認為反射只出現在圖片中的部分割槽域。訓練那些沒有明顯反射的部分可能還會引入噪音。為了解決這個問題,就輸入不同大小的影象。