1. 程式人生 > >【文章閱讀】【超解像】---Deep laplacian Pyramid Networks for Fast and Accurate Super-Resolution

【文章閱讀】【超解像】---Deep laplacian Pyramid Networks for Fast and Accurate Super-Resolution

【文章閱讀】【超解像】–Deep laplacian Pyramid Networks for Fast and Accurate Super-Resolution

期刊論文CVPR2017連結:http://vllab.ucmerced.edu/wlai24/LapSRN/papers/cvpr17_LapSRN.pdf

專案主頁:http://vllab.ucmerced.edu/wlai24/LapSRN/

本文為LapSRN的期刊論文解析,作者還對這個方法做了進一步優化,後續分析。

1.主要貢獻

​ 本文主要工作如下:

​ 1). 提出一種拉普拉斯金字塔網路結構,每一級金字塔結構以粗糙分辨的圖作為輸入(低解析度輸入,很多方法是利用放大後的影象作為輸入),用轉置卷積進行升取樣得到更精細的特徵圖;

​ 2). 利用robust Charbonnier loss function 作為損失函式;

​ 3). 一個網路結構可以實現多解析度的放大,如一個放大8倍的模型可以同時實現2倍和4倍的影象放大。

2.論文分析

1) 網路結構
在這裡插入圖片描述

​ 分為特徵提取結構和影象重建結構:

​ 特徵提取結構:在第s層,特徵提取網路結構有d個卷積層和一個轉置卷積層,轉置卷積層的作用是將提取的影象特徵擴大2倍,轉置卷積的輸出有兩個去處,一是影象重建結構的卷積層用來重建影象,一是特徵提取的第s+1層;這種特徵提取的好處為:直接從低解析度影象提取影象特徵,用一個轉置卷積產生高解析度的影象特徵,這樣降低的影象的計算複雜度,提起的低層特徵作為金字塔的高層的輸入,提高卷積網路的非線性,使網路結構可以學習到更復雜的特徵;

​ 影象重建結構:在第s層,輸入影象經過轉置卷積放大2倍,與特徵提取得到的高解析度特徵圖相加,得到的輸出作為高層影象重建結構的輸入,整個網路結構是一個串聯的CNN,每個層級都有相似的結構。

2)損失函式
L ( y , y

^ , θ ) = 1 N i = 1 N s = 1 L ρ ( y s ( i ) y ^ s ( i ) ) L(y,\hat{y},\theta)=\frac{1}{N}\sum_{i=1}^N\sum_{s=1}^L\rho(y_s^{(i)}-\hat{y}_s^{(i)})
​ 其中 y ^ s ( i ) = x s ( i ) + r s ( i ) \hat{y}_s^{(i)}=x_s^{(i)}+r_s^{(i)} 表示網路結構中金字塔的第s層的輸出,N表示一個patch的影象數量,L表示金字塔的層數, y s y_s 表示真值影象,是真值通過降取樣得到得到的。 r s r_s 表示特徵提取結構經過轉換卷積得到的輸出, x s x_s 表示輸入影象放大後的影象。 ρ ( x ) = x 2 + ε 2 \rho(x)=\sqrt{x^2+\varepsilon^2} (l1範數的變體)

實驗比較了本文提出的損失函式和L2損失函式的效能比較:

在這裡插入圖片描述
在這裡插入圖片描述

​ 圖2中綠色是利用L2作為損失函式,需要更多的訓練次數才能達到SRCNN的效能,從圖3可看出帶來了更多的人為偽像

3) 訓練細節

​ 每個卷積核都是 3 3 64 3*3*64 ,轉換卷積核大小為 4 4 4*4 ,啟用函式使用的是LReLU,對2倍和4倍的放大,金字塔的每層卷積層為d=10,對8倍放大,d=5; 下表中不同的層數的效能和影象處理時間。
在這裡插入圖片描述

3.結果分析

​ 和之前的方法進行比較,效能如下,效能好,處理速度快。

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述

缺點,如下圖,8倍放大過程中,影象細節不能正常恢復。

在這裡插入圖片描述

4.參考

https://blog.csdn.net/Cyiano/article/details/78519521

論文個人理解,如有問題,煩請指正,謝謝!