1. 程式人生 > >Image Super-Resolution Using Very Deep Residual Channel Attention Networks 閱讀理解

Image Super-Resolution Using Very Deep Residual Channel Attention Networks 閱讀理解

2018 CVPR Image Super-Resolution Using Very Deep Residual Channel Attention Networks

Code https://github.com/yulunzhang/RCAN   親測效果不錯

1 EDSR和MDSR表明,對於影象SR來說,深度的表達是至關重要的。但是作者認為簡單地將殘差模組拼接在一起來構建更深層的網路,幾乎不能獲得更好的改進。更深層次的網路是否能進一步促進效果以及如何構建非常深厚的可訓練網路還需要探索。

2 作者主要針對EDSR提出改進 第一點認為EDSR將特徵不同通道平等對待,這樣喪失通道判別能力,損失了深度學習的偉大。第二點超分的目的就是恢復上取樣後圖像的細節,而LR影象包含大量細節資訊,可以直接傳遞給最後的輸出影象。EDSR沒必要去提取特徵然後學習,浪費計算。

因此作者提出了一個非常深(400多層)的網路RCAN並且可以自適應學習有用的通道判別能力(基於注意力機制)。

3 作者認為高頻通道特徵對超分影象重建很有用,因此通過注意力機制實現不同通道特徵得到不同的權重。

 

解答:

1 提出了一個residual in residual (RIR)使得非常深的網路可訓練。

2 提出了通道注意(CA)機制,通過對跨特性通道的相互依賴進行建模來自適應地重新擴充套件每個通道的特性。

 

整個網路大結構

LR –> 低階特徵提取 –> RIR(深度特徵提取)->(低階特徵*深度特徵)->

上取樣模組-》重建模組-HR

RIR:基於殘差模組結構獲得了深度特徵,這些特徵對應非常大的感受野。

上取樣模組:選擇很多(反轉積,鄰近插值+卷積,ESPCN)都可以。

重建模組:通過一個 卷積層。

損失函式:L1

 

RIR模組簡介:圖2

RIR包含多個殘差組(RG)模組和一個長跳連線。

RG:每一個RG又包含多個RCAB和一個短跳連線。

這種結構使得網路可以非常深。殘差塊和連線線能夠實現非常深的網路已經被證實了的。

其中長連線線是有利於網路訓練的和學習的。另外文章強調過屬於影象包含很多有用的資訊,尤其低頻資訊,這些資訊可以直接通過長連線線傳輸到後面。其中為了進一步學習殘差,每一個

RG中包含多個RCAB,以及一個短跳連線,理由同大的殘差和長跳連線差不多。

RCAB

MDSR and EDSR 裡面的RBs 模組可以看作RCAB的特例,主要是作者添加了一個通道注意力,使得每一個通道的特徵權重是不一樣的。正如上面所討論的,殘差組和長跳連線允許網路的主要部分集中在更豐富的LR特徵。通道注意力提取通道特性,以進一步提高網路的判別能力。這部分主要來自“Enhanced deep residual networks for single image super-resolution”的RB模組啟發。作者在RB模組融於通道注意力機制提出了RCAB

 

作者也通過實驗證實了提出的RIR模組和RCAB模組的有效性。通過作者公開的程式碼,親測效果不錯。

 

ps:

Channel-wise Attention機制可以看作是一個選擇語義屬性的過程,聯想到semantic attention。

為什麼要引入channel wise attention?channel wise atentiontion的本質是什麼呢?舉個例子:當你要預測cake時,那麼channel wise attention就會使得提取到cake特徵的卷積核生成的feature map的權重加大。因此作者在文中將channel wise attention總結為semantic attention,semantic attention的內容可以參看CVPR2016的論文:Image captioning with semantic attention。

多個特徵圖對應的同一個通道的均值,即為通道特徵。每一個通道會得到不一樣的權重