1. 程式人生 > >FSRCNN快速影象超分辨論文翻譯

FSRCNN快速影象超分辨論文翻譯

摘要

大量的計算代價很難達到實時。我們在三個方面改進了srcnn。
1. 在網路末端加入反捲積層,向HR的對映直接從原始LR(未經插值)學得.
2. 在對映和擴充套件反饋之前通過收縮輸入特徵維度來重新制作對映層.
3. 使用了更小的濾波器和更多的對映層.
可以在CPU上實現實時並且效果不錯.

1 介紹

目前SR演算法多為基於學習的方法,即學習HR和LR之間的對映,SRCNN對於較大圖片的處理速度不夠好,例如以三倍係數對240*240圖片上取樣,SRCNN幀率是1.32fps,遠低於實時的24fps.難以置信…然而作者發現了兩個問題限制了網路速度.
1. 在預處理階段,原始LR圖片需要通過雙三次插值上取樣,因此SRCNN的計算複雜度隨HR圖片大小變化,為平方倍。插值LR的計算代價是原始LR的n^2倍,所以直接學習原始LR可以加速n^2倍。
2. 第二個問題在非線性對映。在SRCNN中,輸入影象塊被投影到高維LR特徵空間,然後通過複雜的對映到另一個高維HR特徵空間。採用更廣泛的對映層可以大幅提高對映精度,但是會有計算量的代價。那麼問題就是如何在縮小網路尺寸的同時維持先前的精度。
問題1的解決:用反捲積層代替雙三次插值,將其置於網路末端,那麼計算複雜度僅與原始LR尺寸成比例。值得一提的是反捲積層不是簡單替代傳統插值核心,或是‘上池化+卷積’。事實上,它由多種自動學習的上取樣核組成(圖三),這些核共同工作來生成最終HR輸出,並且用統一插值核心來代替反捲積濾波器,這將導致PSNR劇烈下降。
問題2的解決:在對映層的前後端分別加入萎縮層和擴張層,以限制在低維特徵空間的對映。特別的,我們將一個大的對映層分解為多個3*3的小層。網路為對稱漏斗,中間小,兩頭大。
FSRCNN特點:所有卷積層可以被不同放大因子的網路所共享,我們只需要微調反捲積層,以獲得另一個放大倍數,而這幾乎不會損失對映精度。
我們的貢獻有三點:
1. 制定了一個漏斗狀的,緊湊的CNN結構用於快速影象超分辨。藉助於反捲積核之間的合作,網路不需要預處理就可以學習到一個原始LR與HR之間的端對端的對映。
2. 該模型保證精度的同時還實現了加速(比SRCNN-EX快四十倍)。
3. 我們傳遞該網路的卷積層來實現不同上取樣因子之間的快速訓練和測試,沒有恢復質量的損失。

2 相關工作

用於超分辨的DL
SCN:為保證對映精度,很難去縮小稀疏編碼子網路。眾多網路都需要對LR插值。FSRCNN不僅直接作用於原始LR,還擁有簡潔且更有效的對映層。先前方法必須訓練一個完全不同的網路用於指定的上取樣因子,而FSRCNN只需要更換不同反捲積層即可。
CNN加速
首先,他們專注於逼近已有的訓練的很好的模型,而我們重新制定了模型且實現了更好的效果。其次,現有方法都是用來解決高等級視覺問題(影象分類,物體檢測),而我們的方法是用於低階視覺任務。由於SR的深層模型不包含全連線層,因此卷積濾波器的近似值將嚴重影響效能。

3 基於CNN的快速超分辨

3.1 SRCNN

SRCNN的複雜度與HR尺寸有關,中間層的引數在整個網路中佔比最多,下一節的FSRCNN將重點注意這兩點。

3.2 FSRCNN

圖2展示了SRCNN和FSRCNN的三個區別:
1. 輸入:
SRCNN需要對LR插值,FSRCNN不需要,並用反捲積層來替換上取樣層;
2. 非線性對映:
SRCNN的非線性對映在FSRCNN中用壓縮,對映,擴充套件,三步來代替;
3. 網路結構:
SRCNN為三層,FSRCNN更深且層的尺寸更小。
這些因素使得FSRCNN更快且更好。
定義Conv(fi,ni,ci)為卷積層,DeConv(fi,ni,ci)為反捲積層,fi,ni,ci

分別代表濾波器尺寸,濾波器數量,通道數量。
特徵提取
為了與SRCNN區分,FSRCNN的輸入影象定義為Ys,通過第一部分過濾器的卷積,輸入的每一塊(單畫素重疊)被表示為高維特徵向量。
在選擇f1,n1,c1引數時我們參考了SRCNN。SRCNN中第一層過濾器的尺寸為9.注意這些過濾器作用於被放大尺寸的影象Y。由於Y中大部分影象是從Ys插值的,Ys中一個5*5的塊可以覆蓋Y中一個9*9的塊中的幾乎全部的資訊。因此,我們可以接受一個更小尺寸的濾波器,f1=5,這會有一點資訊的損失。對於通道數量,我們和SRCNN一樣令c1=1.另一個觀點認為n1可視為LR特徵維度的數量,表示為d,第一個敏感變數。最終,第一層可被表示為Conv(5,d,1)
壓縮
在SRCNN,對映層通常位於特徵提取層之後,高維LR特徵直接被對映到HR特徵空間。然而,LR特徵維度d通常非常大,對映步驟的計算複雜度非常大。這個現象也存在於一些應對高階視覺任務的深度模型之中。作者參考了《Network in network》中1*1的思路,在特徵提取層後加入了壓縮層以減小LR特徵維度d。f2=1*1,使之類似於與LR的線性結合。通過採用一個更小的核數量n2=s遠小於d,那麼LR特徵為度就成為s。這裡s是第二個敏感變數,其決定了壓縮等級,第二層可被表示為Conv(1,s,d)。這極大降低了引數數量。(詳情見3.3)
非線性對映
非線性對映是SR中最重要的一部分,對映層的寬度(一層的核數量)和

好了我要先去看Network in network了