【文章閱讀】【超解像】---Deep laplacian Pyramid Networks for Fast and Accurate Super-Resolution
【文章閱讀】【超解像】–Deep laplacian Pyramid Networks for Fast and Accurate Super-Resolution
期刊論文CVPR2017連結:http://vllab.ucmerced.edu/wlai24/LapSRN/papers/cvpr17_LapSRN.pdf
專案主頁:http://vllab.ucmerced.edu/wlai24/LapSRN/
本文為LapSRN的期刊論文解析,作者還對這個方法做了進一步優化,後續分析。
1.主要貢獻
本文主要工作如下:
1). 提出一種拉普拉斯金字塔網路結構,每一級金字塔結構以粗糙分辨的圖作為輸入(低解析度輸入,很多方法是利用放大後的影象作為輸入),用轉置卷積進行升取樣得到更精細的特徵圖;
2). 利用robust Charbonnier loss function 作為損失函式;
3). 一個網路結構可以實現多解析度的放大,如一個放大8倍的模型可以同時實現2倍和4倍的影象放大。
2.論文分析
1) 網路結構
分為特徵提取結構和影象重建結構:
特徵提取結構:在第s層,特徵提取網路結構有d個卷積層和一個轉置卷積層,轉置卷積層的作用是將提取的影象特徵擴大2倍,轉置卷積的輸出有兩個去處,一是影象重建結構的卷積層用來重建影象,一是特徵提取的第s+1層;這種特徵提取的好處為:直接從低解析度影象提取影象特徵,用一個轉置卷積產生高解析度的影象特徵,這樣降低的影象的計算複雜度,提起的低層特徵作為金字塔的高層的輸入,提高卷積網路的非線性,使網路結構可以學習到更復雜的特徵;
影象重建結構:在第s層,輸入影象經過轉置卷積放大2倍,與特徵提取得到的高解析度特徵圖相加,得到的輸出作為高層影象重建結構的輸入,整個網路結構是一個串聯的CNN,每個層級都有相似的結構。
2)損失函式
其中
表示網路結構中金字塔的第s層的輸出,N表示一個patch的影象數量,L表示金字塔的層數,
表示真值影象,是真值通過降取樣得到得到的。
表示特徵提取結構經過轉換卷積得到的輸出,
表示輸入影象放大後的影象。
(l1範數的變體)
實驗比較了本文提出的損失函式和L2損失函式的效能比較:
圖2中綠色是利用L2作為損失函式,需要更多的訓練次數才能達到SRCNN的效能,從圖3可看出帶來了更多的人為偽像
3) 訓練細節
每個卷積核都是
,轉換卷積核大小為
,啟用函式使用的是LReLU,對2倍和4倍的放大,金字塔的每層卷積層為d=10,對8倍放大,d=5; 下表中不同的層數的效能和影象處理時間。
3.結果分析
和之前的方法進行比較,效能如下,效能好,處理速度快。
缺點,如下圖,8倍放大過程中,影象細節不能正常恢復。
4.參考
https://blog.csdn.net/Cyiano/article/details/78519521
論文個人理解,如有問題,煩請指正,謝謝!