1. 程式人生 > >深度學習(二十一)——SRCNN, DRCN, VDSR

深度學習(二十一)——SRCNN, DRCN, VDSR

影象超解析度演算法(續)

前DL時代的SR

從訊號處理的角度來說,LR之所以無法恢復成HR,主要在於丟失了影象的高頻資訊。(Nyquist取樣定理)

Harry Nyquist,1889~1976,University of North Dakota本碩(1914,1915)+耶魯博士(1917)。AT&T貝爾實驗室電子工程師。IEEE Medal of Honor獲得者(1960)。

IEEE Medal of Honor是IEEE的最高獎,除了1963年之外,每年只有1人得獎,個別年份甚至會輪空。

最簡單的當然是《影象處理理論(二)》中提到的梯度銳化和拉普拉斯銳化,這種簡單演算法當然不要指望有什麼好效果,聊勝於無而已。這是1995年以前的主流做法。

稍微複雜的方法,如同CV的其它領域經歷了“訊號處理->ML->DL”的變遷一樣,SR也進入了ML階段。

這裡寫圖片描述

上圖是兩種典型的SR演算法。

左圖演算法的中心思想是從圖片中找出相似的大尺度區域,然後利用這個大區域的邊緣資訊進行SR。但這個方法對於那些只出現一次的邊緣資訊是沒什麼用的。

於是就有了右圖的演算法。對各種邊緣資訊建立一個數據庫,使用時從資料庫中挑一個最類似的邊緣資訊進行SR。這個方法比上一個方法好一些,但不夠魯棒,圖片稍作改動,就有可能無法檢索到匹配的邊緣資訊了。

ML時代的代表演算法還有:

《Image Super-Resolution via Sparse Representation》

這篇論文是黃煦濤和馬毅小組的Jianchao Yang的作品。

黃煦濤(Thomas Huang),1936年生。生於上海,國立臺灣大學本科(1956)+MIT碩博(1960,1963)。UIUC教授。美國工程院院士,中國科學院+中國工程院外籍院士。

馬毅,清華本科(1995)+UCB碩博(1997,2000)。UCB教授。IEEE fellow。
個人主頁:
http://yima.csl.illinois.edu/

這篇論文提出的演算法,在形式上和後文這些DL演算法已經非常類似了,也是基於HR和LR配對的有監督訓練。區別只在於這篇論文使用矩陣的稀疏表示來擬合SR函式,而DL演算法使用神經網路擬合SR函式。前者是線性變換,而後者是非線性變換。

參考

深度學習在影象超解析度重建中的應用

深度對抗學習在影象分割和超解析度中的應用

深度學習在單影象超解析度上的應用:SRCNN、Perceptual loss、SRResNet

NTIRE2017奪冠論文:用於單一影象超解析度的增強型深度殘差網路

如何通過多幀影像進行超解析度重構?

超解析度重建還有什麼可以研究的嗎?

胎兒MRI高解析度重建技術:現狀與趨勢

華為推出新型HiSR:移動端的超解析度演算法

SRCNN

SRCNN(Super-Resolution CNN)是湯曉鷗小組的Chao Dong的作品。

湯曉鷗,中國科學技術大學本科(1990)+羅切斯特大學碩士(1991)+麻省理工學院博士(1996)。香港中文大學教授,商湯科技聯合創始人。

論文:

《Learning a Deep Convolutional Network for Image Super-Resolution》

這裡寫圖片描述

該方法對於一個低解析度影象,先使用雙三次(bicubic)插值將其放大到目標大小,再通過三層卷積網路做非線性對映,得到的結果作為高解析度影象輸出。作者將三層卷積的結構解釋成與傳統SR方法對應的三個步驟:影象塊的提取和特徵表示,特徵非線性對映和最終的重建。

三個卷積層使用的卷積核的大小分為為9x9, 1x1和5x5,前兩個的輸出特徵個數分別為64和32。

以下是論文的效果表格:

這裡寫圖片描述

吐槽一下,這種表格屬於論文必須有,但是卻沒什麼營養的部分,且不乏造假的例子。原因很簡單,一個idea,如果沒有好效果,paper連發都發不了。但是,沒有好效果的idea,未必沒有價值,不說是否能啟發人們的思維,至少能讓後來者,不用再掉到同一個坑裡。
比如化學領域,失敗的實驗遠遠多於成功的實驗。在計算能力不發達的時代,人們主要關注成功的案例,但現在大家逐漸意識到:失敗的案例才是更大的財富。

這裡對其中的指標做一個簡介。

PSNR(Peak Signal to Noise Ratio,峰值信噪比)

MSE=1H×Wi=1Hj=1W(X(i,j)Y(i,j))2 PSNR=10log10((2n1)2MSE)

其中,MSE表示當前影象X和參考影象Y的均方誤差(Mean Square Error),H、W分別為影象的高度和寬度;n為每畫素的位元數,一般取8,即畫素灰階數為256. PSNR的單位是dB,數值越大表示失真越小。

雖然PSNR和人眼的視覺特性並不完全一致,但是一般認為PSNR在38以上的時候,人眼就無法區分兩幅圖片了。

SSIM(structural similarity, 結構相似性),也是一種全參考的影象質量評價指標,它分別從亮度、對比度、結構三方面度量影象相似性。

μX=1H×Wi=1Hj=1WX(i,j),σX2=1H×Wi=1Hj=1W(X(i,j)μX)2 σXY=1H×Wi=1Hj=1W((X(i,j)μX)(Y(i,j)μY)) l(X,Y)=2μXμY+C1μX2+μY2+C1,c(X,Y)=2σXσY+C2σX2+σ<