1. 程式人生 > >[譯] Perceptual Losses for Real-Time Style Transfer and Super-Resolution(Stanford University)

[譯] Perceptual Losses for Real-Time Style Transfer and Super-Resolution(Stanford University)

轉載地址:http://www.jianshu.com/p/b728752a70e9

Abstract

  摘要:我們考慮的影象轉換的問題,即將一個輸入影象變換成一個輸出影象。最近熱門的影象轉換的方法通常是訓練前饋卷積神經網路,將輸出影象與原本影象的逐畫素差距作為損失函式。並行的工作表明,高質量的影象可以通過用預訓練好的網路提取高階特徵、定義並優化感知損失函式來產生。我們組合了一下這兩種方法各自的優勢,提出採用感知損失函式訓練前饋網路進行影象轉換的任務。本文給出了影象風格化的結果,訓練一個前饋網路去解決實時優化問題(Gatys等人提出的),和基於有優化的方法對比,我們的網路產生質量相當的結果,卻能做到三個數量級的提速。我們還實驗了單圖的超解析度重建,同樣採用感知損失函式來代替求逐畫素差距的損失函式
  
關鍵詞:

風格轉換超解析度重建深度學習

一. 簡介

  許多經典問題可以被分為影象轉換任務,即一個系統接收到一些輸入影象,將其轉化成輸出影象。用影象處理來舉例,比如影象降噪,超解析度重建,影象上色,這都是輸入一個退化的影象(噪聲,低解析度,灰度),輸出一個高質量的彩色影象。從計算機視覺來舉例,包括語義分割,深度估計,其中的輸入是一個彩色影象,輸出是影象對場景的語義或幾何資訊進行了編碼。

  一個處理影象轉換任務的方法是在有監督模式下訓練一個前饋卷積神經網路,用逐畫素差距作損失函式來衡量輸出影象和輸入影象的差距。這個方法被Dong等人用來做了超解析度重建,被Cheng等人做了影象上色,被Long等人做了影象分割,被Eigen等人做了深度和表面預測。這個方法的優勢在於在測試時,只需要一次前饋的通過已訓練好的網路。

  然而,這些方法都用了逐畫素求差的損失函式,這個損失函式無法抓住輸入及輸出影象在感知上的差距。舉個例子,考慮兩張一模一樣的影象,只有1畫素偏移上的差距,儘管從感知上這倆圖片一模一樣,但用逐畫素求差的方法來衡量的話,這倆圖片會非常的不一樣。

  同時,最近的一些工作證明,高質量的影象可以通過建立感知損失函式(不基於逐畫素間的差距,取而代之的是從預訓練好的CNN中提取高層次的影象特徵來求差)影象通過使損失函式最小化來生成,這個策略被應用到了特徵倒置[6](Mahendran等),特徵視覺化[7] (Simonyan等/Yosinski等),紋理綜合及影象風格化[9,10] (Gatys等)。這些方法能產生很高質量的圖片,不過很慢,因為需要漫長的迭代優化過程。

  在這篇論文中,我們結合了兩類方法的優勢。我們訓練一個用於影象轉換任務的前饋網路,且不用逐畫素求差構造損失函式,轉而使用感知損失函式,從預訓練好的網路中提取高階特徵。在訓練的過程中,感知損失函式比逐畫素損失函式更適合用來衡量影象之間的相似程度,在測試的過程中,生成器網路能做到實時轉換。

我們實驗了兩個任務,影象風格化和單圖的超解析度重建。這兩種都有天生的缺陷:影象風格化沒有唯一正確的輸出,超解析度重建的話,我們可以從一個低解析度影象重建出很多高解析度的影象。比較好的是,這兩個任務都需要對輸入的影象進行語義上的理解。影象風格化中,輸出圖片從語義維度來看必須跟輸入影象比較接近,儘管顏色和紋理會發生質的變化。超解析度重建任務中,必須從視覺上模糊的低解析度輸入來推斷出新的細節。原則上,一個為任何任務訓練的高質量的神經網路應該能隱式的學習輸入影象的相關語義;然而在實踐中我們不需要從頭開始學習:使用感知損失函式,允許從損失網路直接轉移語義資訊到轉換網路。
圖1:我們的結果,第一行是風格化,第二行是4倍的超解析度重建

  對於影象風格化,我們的前饋網路用來解決優化問題[10];我們的結果跟[10]中很相似(無論是質量還是目標函式的值),但能達成3個數量級的速度飛昇。對於超解析度重建,我們證實:把逐畫素求差損失函式改成感知損失函式,能帶來視覺享受級的4倍和8倍超解析度重建。

二. 相關工作

前饋影象轉換:最近幾年前饋影象轉換任務應用十分廣泛,很多轉換任務都用了逐畫素求差的方式來訓練深度卷積神經網路。

  語義分割的方法[3,5,12,13,14,15]產生了密集的場景標籤,通過在在輸入影象上以完全卷積的方式執行網路,配上逐畫素分類的損失函式。[15]跨越了逐畫素求差,通過把CRF當作RNN,跟網路的其他部分相加訓練。我們的轉換網路的結構是受到[3]和[14]的啟發,使用了網路中下采樣來降低特徵圖譜的空間範圍,其後緊跟一個網路中上取樣來產生最終的輸出影象。

  最近的方法在深度估計[5,4,16]和表面法向量估計[5,17]上是相似的,它們把一張彩色輸入影象轉換成有幾何意義的影象,是用前饋神經網路,用逐畫素迴歸[4,5]或分類[17]的損失函式。一些方法把逐畫素求差改換成了懲罰影象梯度或是用CRF損失層來強制促使輸出影象具有一致性。[2]中一個前饋模型用逐畫素求差的損失函式訓練,用於將灰度影象上色。

感知的優化:有一定數量的論文用到了優化的方法來產生影象,它們的物件是具有感知性的,感知性取決於從CNN中提取到的高層次特徵。影象可以被生成用於最大限度提升分類預測的分數[7,8],或是個體的特徵[8]用來理解訓練網路時的函式編碼。相似的優化技巧同樣可以用於產生高可信度的迷惑影象[18,19]。

  Mahendran和Vedaldi從卷積網路中反轉特徵,通過最小化特徵重建損失函式,為了能理解儲存在不同網路層中的影象資訊;相似的方法也被用來反轉區域性二進位制描述符[20]和HOG特徵[21].

  Dosovitskiy和Brox的工作是跟我們的最相關的,它們訓練了一個前饋神經網路去倒置卷積特徵,快速的逼近了[6]提出的優化問題的結局方案,然而他們的前饋網路是用的逐畫素重建損失函式來訓練,而我們的網路是直接用了[6]用的特徵重建損失函式。

風格轉換:Gatys等人展示藝術風格轉換,結合了一張內容圖和另一張風格圖,通過最小化根據特徵重建的代價函式,風格重建用的代價函式也是基於從預訓練模型中提取的高階特徵;一個相似的方法之前也被用於做紋理合成。他們的方法產出了很高質量的記過,不過計算代價非常的昂貴因為每一次迭代優化都需要經過前饋、反饋預訓練好的整個網路。為了克服這樣一個計算量的負擔,我們訓練了一個前饋神經網路去快速獲得可行解。

影象超解析度重建。影象超解析度重建是一個經典的問題,很多人提出了非常廣泛的技術手段來做影象超解析度重建。Yang等人提供了一個對普通技術的詳盡評價,在廣泛採用CNN之前,它們把超解析度重建技術歸類成了一種基於預測的方法.(bilinear, bicubic, Lanczos, [24]), 基於邊緣的方法[25,26] ,統計的方法[27,28,29],基於塊的方法[25,30,31,32,33] ,稀疏字典方法[37, 38]。最近在單圖超解析度放大方向取得成就的表現是用了三層卷積神經網路,用逐畫素求差的方式算損失函式。其他一些有藝術感的方法在[39,40,41]

三. 方法

  像圖2中展示的那樣,我們的系統由兩部分組成:一個圖片轉換網路fw 和一個損失網路 φ(用來定義一系列損失函式l1, l2, l3),圖片轉換網路是一個深度殘差網路,引數是權重W,它把輸入的圖片x通過對映 y=fw(x)轉換成輸出圖片y,每一個損失函式計算一個標量值li(y,yi), 衡量輸出的y和目標影象yi之間的差距。圖片轉換網路是用SGD訓練,使得一系列損失函式的加權和保持下降。


圖2:系統概覽。左側是Generator,右側是預訓練好的vgg16網路(一直固定)

為了明確逐畫素損失函式的缺點,並確保我們的損失函式能更好的衡量圖片感知及語義上的差距,我們從最近的優化迭代生成圖片的系列工作中得到了靈感[6,7,8,9,10],這些方法共同的關鍵點在於CNN是預先訓練好用於影象分類的,這個CNN已經學會感知和語義資訊編碼,這正是我們希望在我們的損失函式中做的。所以我們用了一個預訓練好用於影象分類的網路φ,來定義我們的損失函式。我們的轉換網路是CNN,它訓練時用的損失函式也同樣是個CNN。

  損失網路φ是能定義一個特徵(內容)損失lfeat和一個風格損失lstyle,分別衡量內容和風格上的差距。對於每一張輸入的圖片x我們有一個內容目標yc一個風格目標ys,對於風格轉換,內容目標yc是輸入影象x,輸出影象y,應該把風格Ys結合到內容x=yc上。我們為每一個目標風格訓練一個網路。對於單圖超解析度重建,輸入影象x是一個低解析度的輸入,目標內容是一張真實的高解析度影象,風格重建沒有使用。我們為每一個超解析度因子訓練一個網路。

3.1 影象轉換網路

  我們的影象轉換網路結構大致上遵循Radford提出的指導方針[42]。我們不用任何的池化層,取而代之的是用步幅卷積或微步幅卷積(http://www.jiqizhixin.com/article/1417)做網路內的上取樣或者下采樣。我們的神經網路有五個殘差塊[42]組成,用了[44]說的結構。所有的非殘差卷積層都跟著一個空間性的batch-normalization[45],和RELU的非線性層,最末的輸出層除外。最末層使用一個縮放的Tanh來確保輸出影象的畫素在[0,255]之間。除開第一個和最後一個層用9x9的kernel,其他所有卷積層都用3x3的kernels,我們的所有網路的精確結構可以在支撐文件中看。

輸入和輸出:對於風格轉換,輸入和輸出都是彩色圖片,大小3x256x256。對於超解析度重建,有一個上取樣因子f,輸出是一個高解析度的影象3x288x288,輸入是一個低解析度影象 3x288/fx288/f,因為影象轉換網路是完全卷積,所以在測試過程中它可以被應用到任何解析度的影象中。

下采樣和上取樣:對於超解析度重建,有一個上取樣因子f,我們用了幾個殘差塊跟著Log2f卷及網路(stride=1/2)。這個處理和[1]中不一樣,[1]在把輸入放進網路之前使用了雙立方插值去上取樣這個低解析度輸入。不依賴於任何一個固定的上取樣插值函式,微步長卷積允許上取樣函式和網路的其他部分一起被訓練。


圖3,和[6]相似,我們用了優化的方式去找一個影象y,能使得針對某些層的特徵(內容)損失最小化,使用了預訓練好的vgg16網路,在我們用較高層重建的時候,影象的內容和空間結構被保留了,但是顏色,紋理和精確的形狀改變了。

  對於影象轉換,我們的網路用了兩個stride=2的卷積去下采樣輸入,緊跟著的是幾個殘差塊,接下來是兩個卷積層(stride=1/2)來做上取樣。雖然輸入和輸出有著相同的大小,但是先下采樣再上取樣的過程還是有一些其他好處。

首當其衝的好處是計算複雜性。用一個簡單的實現來舉例,一個3x3的卷積有C個fiters,輸入尺寸C x H x W需要9HWC^2 的乘加,這個代價和3x3卷積有DC個filter,輸入尺寸DCxH/DxW/D是一樣的。在下采樣之後,我們可以因此在相同計算代價下用一個更大的網路。

  第二個好處是有效的感受野大小。高質量的風格轉換需要一致的改變圖片的一大塊地方;因此這個優勢就在於在輸出中的每個畫素都有輸入中的大面積有效的感受野。除開下采樣,每一個附加的3x3卷積層都能把感受野的大小增加2倍,在用因子D進行下采樣後,每個3x3的卷積不是增加了感受野的大小到2D,給出了更大的感受野大小但有著相同數量的層。

  殘差連線:He[43]等人用了殘差連線去訓練非常深的網路用來做影象分類,它們證明了殘差連線能讓網路更容易的去學習確定的函式,這在影象轉換網路中也是一個很有吸引力的研究,因為在大多數情況下,輸出影象應該和輸入影象共享結構。因此我們網路的大體由幾個殘差塊組成,每個包含兩個3x3的卷積層,我們用[44]中設計的殘差塊,在附錄中有。

3.2 感知損失函式

  我們定義了兩個感知損失函式,用來衡量兩張圖片之間高階的感知及語義差別。要用一個預訓練好用於影象分類的網路模型。在我們的試驗中這個模型是VGG-16[46],使用Imagenet的資料集來做的預訓練。


圖4 和[10]一樣,我們用了優化的方式去找到一張圖y,最小化從VGG16的某幾層取出來的風格損失。影象y只儲存風格特徵不儲存空間結構。

特徵(內容)損失:我們不建議做逐畫素對比,而是用VGG計算來高階特徵(內容)表示,這個取法和那篇artistic style使用VGG-19提取風格特徵是一樣的,公式:


如在[ 6 ]和在圖3重現的,找到一個影象 Y使較低的層的特徵損失最小,往往能產生在視覺上和y不太能區分的影象,如果用高層來重建,內容和全域性結構會被保留,但是顏色紋理和精確的形狀不復存在。用一個特徵損失來訓練我們的影象轉換網路能讓輸出非常接近目標影象y,但並不是讓他們做到完全的匹配。

風格損失:特徵(內容)損失懲罰了輸出的影象(當它偏離了目標y時),所以我們也希望去懲罰風格上的偏離:顏色,紋理,共同的模式,等方面。為了達成這樣的效果Gatys等人提出了以下風格重建的損失函式。

  讓φj(x)代表網路φ的第j層,輸入是x。特徵圖譜的形狀就是Cj x Hj x Wj、定義矩陣Gj(x)為Cj x Cj矩陣(特徵矩陣)其中的元素來自於:


  如果我們把φj(x)理解成一個Cj維度的特徵,每個特徵的尺寸是Hj x Wj,那麼上式左邊Gj(x)就是與Cj維的非中心的協方差成比例。每一個網格位置都可以當做一個獨立的樣本。這因此能抓住是哪個特徵能帶動其他的資訊。梯度矩陣可以很搞笑的倍計算,通過調整φj(x)的形狀為一個矩陣ψ,形狀為Cj x HjWj,然後Gj(x)就是ψψT/CjHjWj。

風格重建的損失是定義的很好的,甚至當輸出和目標有不同的尺寸是,因為有了梯度矩陣,所以兩者會被調整到相同的形狀。

  就像[10]中介紹的,如圖5重建,能生成一張圖片y使得風格損失最小,從而儲存了風格上的特徵,但是不儲存空間上的結構特徵。

  為了表示從一個集合層的風格重建,而不是由單層重建,我們把Lstyle(y^,y)定義成一個損失的集合(針對每一個層的損失求和)。

3.3簡單損失函式

  除了感知損失,我們還定義了兩種簡單損失函式,僅僅用了低維的畫素資訊

  畫素損失:畫素損失是輸出圖和目標圖之間標準化的差距。如果兩者的形狀都是CxHxW,那麼畫素損失就是Lpixel(y,y) = ||y^-y||₂²/CHW。這隻能被用在我們有完全確定的目標,讓這個網路去做完全匹配。

  全變差正則化:為使得輸出影象比較平滑,我們遵循了前人在特徵反演上的研究[6,20],超解析度重建上的研究[48,49]並且使用了全變差正則化lTV(y)。(全變差正則化一般用在訊號去噪)

四. 實驗

  我們實驗了兩個影象變換任務:風格轉換和單圖超解析度重建。風格轉換中,前人使用優化來生成的影象,我們的前饋網路產生類似的定性結果,但速度快了三個數量級。單影象超解析度中,用了卷積神經網路的都用的逐畫素求差的損失,我們展示了令人振奮的的有質量的結果,通過改用感知損失。

4.1風格轉換

  風格轉換的目標是產生一張圖片,既有著內容圖的內容資訊,又有著風格圖的風格資訊,我們為每一種風格訓練了一個影象轉換網路,這幾種風格圖都是我們手工挑選的。然後把我們的結果和基礎Gatys的結果做了對比。


基線:作為基線,我們重現了Gatys等人得方法,給出風格和內容目標ys和yc,層i和J表示特徵和風格重建。y通過解決下述問題來獲得。


λ開頭的都是引數,y初始化為白噪聲,用LBFGS優化。我們發現,無約束的優化方程通常會導致輸出圖片的畫素值跑到[0,255]之外,做一個更公平的比較,對基線,我們用L-BFGS投影,每次迭代都把圖片y調整到[0,255],在大多數情況下,運算優化在500次迭代之內收斂到滿意的結果,這個方法比較慢因為每一個LBFGS迭代需要前饋再反饋通過VGG16網路。

訓練細節:我們的風格轉換網路是用COCO資料集訓練的,我們調整每一個影象到256x256,共8萬張訓練圖,batch-size=4,迭代40000次,大約跑了兩輪。用Adam優化,初始學習速率0.001.輸出圖被用了全變數正則化(strength 在1e-6到1e-4之間),通過交叉驗證集選擇。不用權重衰減或者dropout,因為模型在這兩輪中沒有過擬合。對所有的風格轉換實驗我們取relu2_2層做內容,relu1_2,relu2_2,relu3_3和relu4_3作為風格。VGG-16網路,我們的實驗用了Torch和cuDNN,訓練用了大約4個小時,在一個GTX Titan X GPU上。

定性結果:在圖6中我們展示了結果的對比,比較了我們的記過和那些基礎方法,用了一些風格和內容圖。所有的引數λ都是一樣的,所有的訓練集都是從MS-COCO2014驗證集裡抽選的。我們的方法能達到和基本方法一樣的質量。

儘管我們的模型是用256x256的圖片訓練的,但在測試時候可以用在任何影象上面,在圖7中我們展示了一些測試用例,用我們的模型訓練512大小的圖片


圖6,用我們的影象生成網路做影象風格轉換。我們的結果和Gatys相似,但是更快(看錶1)。所有生成圖都是256x256的
圖7我們的網路在512x512圖上的測試樣例,模型用一個全卷積操作來達成高解析度的影象(測試時),風格圖和圖6一樣。

  通過這些結果可以明確的是,風格轉換網路能意識到影象的語義內容。舉個例子,在圖7中的海灘影象,人們是很明顯的被識別了出來,但背景被風格扭曲了;同樣的,貓臉很明顯的被識別了出來,但他的身體並沒有被識別出來。一個解釋是:VGG16網路是被訓練用來分類的,所以對於圖片的主體(人類和動物)的識別要比那些背景保留完整的多。

定量結果:基本方法和我們的方法都是使公式5最小化。基本方法針對一張圖進行明確的優化(針對要輸出的影象)我們的方法訓練一個解決方案(能在前饋中處理任意一張圖片Yc)我們可以量化的比較這兩種方法,通過衡量它們成功減少代價函式的幅度。(公式5)

我們用我們的方法和它們的方法一起訓練了五十張圖片(從MSCOCO驗證集中得到)使用The Muse by Pablo Picasso當作一個風格圖。對於基礎方法我們記錄了函式在每一個迭代過程的值。對我們的方法我們對每一張圖片記錄了公式5的值。我們還計算了公式5的值,當y和輸出影象yc相等時,結果顯示在表5,我們看到內容圖Yc達到了非常高的損失,和我們的方法在50-100之間差不多。

  儘管我們的網路用256x256的尺寸訓練的,但他們在512,1024的情況下都能成功的使代價函式最小化,結果展示在表5中。我們可以看到哪怕在高解析度下,和普通方法達成相同損失的時間也差不多。


表1 速度(秒級)的比較:我們的網路vs普通的基於優化的網路。我們的方法能給出相似質量的結果,(看圖6)但能加速百倍。兩種方法都是在GTX TitanX GPU上測試的。

速度:在表1中我們比較了執行的時間(我們的方法和基礎方法)對於基礎方法,我們記錄了時間,對所有的影象大小比對,我們可以看出我們方法的執行時間大致是基本方法迭代一次時間的一半。跟基本方法500次迭代的相比,我們的方法快了三個數量級。我們的方法在20fps裡產生512x512的圖片,讓他可能應用在實時影象轉換或者視訊中。

4.2 單圖超解析度重建

  在單圖超解析度重建中,任務是從一個低解析度的輸入,去產生一個高解析度的輸出圖片。這是一個固有的病態問題,因為對一個低解析度影象,有可能對應著很多種高解析度的影象。當超解析度因子變大時,這個不確定性會變得更大。對於更大的因子(x4 x8),高解析度影象中的好的細節很可能只有一丁點或者根本沒有出現在它的低解析度版本中。

  為了解決這個問題,我們訓練了超解析度重建網路,不使用過去使用的逐畫素差損失函式,取而代之的是一個特徵重建損失函式(看section 3)以保證語義資訊可以從預訓練好的損失網路中轉移到超解析度網路。我們重點關注x4和x8的超解析度重建,因為更大的因子需要更多的語義資訊。

  傳統的指標來衡量超解析度的是PSNR和SSIM,兩者都和人類的視覺質量沒什麼相關的[55,56,57,58,59].PSNR和SSIM僅僅依賴於畫素間低層次的差別,並在高斯噪聲的相乘下作用,這可能是無效的超解析度。另外的,PSNR是相當於逐畫素差的,所以用PSNR衡量的模型訓練過程是讓逐畫素損失最小化。因此我們強調,這些實驗的目標並不是實現先進的PSNR和SSIM結果,而是展示定性的質量差別(逐畫素損失函式vs感知損失)

模型細節:我們訓練模型來完成x4和x8的超解析度重建,通過最小化特徵損失(用vgg16在relu2_2層提取出),用了288x288的小塊(1萬張MSCOCO訓練集),準備了低解析度的輸入,用高斯核模糊的(σ=1.0)下采樣用了雙立方插值。我們訓練時bacth-size=4,訓練了20萬次,Adam,學習速率0.001,無權重衰減,無dropout。作為一個後續處理步驟,我們執行網路輸出和低解析度輸入的直方圖匹配。

基礎:基本模型我們用的 SRCNN[1] 為了它優秀的表現,SRCNN是一個三層的卷積網路,損失函式是逐畫素求差,用的ILSVRC2013資料集中的33x33的圖片。SRCNN沒有訓練到x8倍,所以我們只能評估x4時的差異。

  SRCNN訓練了超過1億次迭代,這在我們的模型上是不可能實現的。考慮到二者的差異(SRCNN和我們的模型),在資料,訓練,結構上的差異。我們訓練圖片轉換網路x4,x8用了逐畫素求差的損失函式,這些網路使用相同搞得資料,結構,訓練網路去減少lfeat評測:我們評測了模型,在標準的集合5[60],集合6[61],BSD100[41]資料集,我們報告的PSNR和SSIM[54],都只計算了在Y通道上的(當轉換成YCbCr顏色空間後),跟[1,39]一樣。


結果:我們展示了x4倍超解析度重建的結果(圖8),和其他的方法相比,我們的模型用特徵重建訓練的,得到了很好的結果,尤其是在鋒銳的邊緣和好的細節,比如圖1的眼睫毛,圖2帽子的細節元素。特徵重建損失在放大下引起輕微的交叉陰影圖案,和基礎方法比起來更好。


  x8倍放大展示在圖9中,我們又一次看到我們的模型在邊緣和細節上的優秀。比如那個馬的腳。lfeat模型不會無差別的銳化邊緣;和lpixel模型相比,lfeat模型銳化了馬和騎士的邊緣,但是北京的樹並沒被銳化。可能是因為lfeat模型更關注影象的語義資訊。


  因為我們的Lpixel和lfeat模型有著相同的結構,資料,和訓練過程,所以所有的差別都是因為lpixel和lfeat的不同導致的。lpixel給出了更低的視覺效果,更高的PSNR值,而lfeat在重建細節上有著更好的表現,有著很好的視覺結果。

5. 結論

  在這篇文章中,我們結合了前饋網路和基於優化的方法的好處,通過用感知損失函式來訓練前饋網路。我們對風格轉換應用了這個方法達到了很好的表現和速度。對超解析度重建運用了這個方法,證明了用感知損失來訓練,能帶來更多好的細節和邊緣。

  未來的工作中,我們期望把感知損失函式用在更多其他的影象轉換任務中,如上色或者語義檢測。我們還打算研究不同損失網路用於不同的任務,或者更多種不同的語義資訊的資料集

理解的:http://blog.csdn.net/wyl1987527/article/details/56506653

References

  1. Dong, C., Loy, C.C., He, K., Tang, X.: Image super-resolution using deep convo-lutional networks. (2015)
  2. Cheng, Z., Yang, Q., Sheng, B.: Deep colorization. In: Proceedings of the IEEEInternational Conference on Computer Vision. (2015) 415{423
  3. Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semanticsegmentation. CVPR (2015)
  4. Eigen, D., Puhrsch, C., Fergus, R.: Depth map prediction from a single imageusing a multi-scale deep network. In: Advances in Neural Information ProcessingSystems. (2014) 2366{2374
  5. Eigen, D., Fergus, R.: Predicting depth, surface normals and semantic labels witha common multi-scale convolutional architecture. In: Proceedings of the IEEEInternational Conference on Computer Vision. (2015) 2650{2658
  6. Mahendran, A., Vedaldi, A.: Understanding deep image representations by invert-ing them. In: Proceedings of the IEEE Conf. on Computer Vision and PatternRecognition (CVPR). (2015)
  7. Simonyan, K., Vedaldi, A., Zisserman, A.: Deep inside convolutional net-works: Visualising image classi_cation models and saliency maps. arXiv preprintarXiv:1312.6034 (2013)
  8. Yosinski, J., Clune, J., Nguyen, A., Fuchs, T., Lipson, H.: Understanding neuralnetworks through deep visualization. arXiv preprint arXiv:1506.06579 (2015)
  9. Gatys, L.A., Ecker, A.S., Bethge, M.: Texture synthesis using convolutional neuralnetworks. In: Advances in Neural Information Processing Systems 28. (May 2015)
  10. Gatys, L.A., Ecker, A.S., Bethge, M.: A neural algorithm of artistic style. arXivpreprint arXiv:1508.06576 (2015)
  11. Dong, C., Loy, C.C., He, K., Tang, X.: Learning a deep convolutional networkfor image super-resolution. In: Computer Vision{ECCV 2014. Springer (2014)184{199
  12. Farabet, C., Couprie, C., Najman, L., LeCun, Y.: Learning hierarchical featuresfor scene labeling. Pattern Analysis and Machine Intelligence, IEEE Transactionson 35(8) (2013) 1915{1929
  13. Pinheiro, P.H., Collobert, R.: Recurrent convolutional neural networks for sceneparsing. arXiv preprint arXiv:1306.2795 (2013)
  14. Noh, H., Hong, S., Han, B.: Learning deconvolution network for semantic segmen-tation. arXiv preprint arXiv:1505.04366 (2015)
  15. Zheng, S., Jayasumana, S., Romera-Paredes, B., Vineet, V., Su, Z., Du, D., Huang,C., Torr, P.H.: Conditional random _elds as recurrent neural networks. In: Proceed-ings of the IEEE International Conference on Computer Vision. (2015) 1529{1537
  16. Liu, F., Shen, C., Lin, G.: Deep convolutional neural _elds for depth estimationfrom a single image. In: Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition. (2015) 5162{5170
  17. Wang, X., Fouhey, D., Gupta, A.: Designing deep networks for surface normalestimation. In: Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. (2015) 539{547
  18. Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., Fer-gus, R.: Intriguing properties of neural networks. arXiv preprint arXiv:1312.6199(2013)
  19. Nguyen, A., Yosinski, J., Clune, J.: Deep neural networks are easily fooled: Highcon_dence predictions for unrecognizable images. In: Computer Vision and PatternRecognition (CVPR), 2015 IEEE Conference on, IEEE (2015) 427-436
  20. d'Angelo, E., Alahi, A., Vandergheynst, P.: Beyond bits: Reconstructing imagesfrom local binary descriptors. In: Pattern Recognition (ICPR), 2012 21st Interna-tional Conference on, IEEE (2012) 935{938
  21. Vondrick, C., Khosla, A., Malisiewicz, T., Torralba, A.: Hoggles: Visualizing ob-ject detection features. In: Proceedings of the IEEE International Conference onComputer Vision. (2013) 1{8
  22. Dosovitskiy, A., Brox, T.: Inverting visual representations with convolutional net-works. arXiv preprint arXiv:1506.02753 (2015)
  23. Yang, C.Y., Ma, C., Yang, M.H.: Single-image super-resolution: a benchmark. In:Computer Vision{ECCV 2014. Springer (2014) 372{386
  24. Irani, M., Peleg, S.: Improving resolution by image registration. CVGIP: Graphicalmodels and image processing 53(3) (1991) 231{239
  25. Freedman, G., Fattal, R.: Image and video upscaling from local self-examples.ACM Transactions on Graphics (TOG) 30(2) (2011) 12
  26. Sun, J., Sun, J., Xu, Z., Shum, H.Y.: Image super-resolution using gradient pro_leprior. In: Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEEConference on, IEEE (2008) 1{8
  27. Shan, Q., Li, Z., Jia, J., Tang, C.K.: Fast image/video upsampling. In: ACMTransactions on Graphics (TOG). Volume 27., ACM (2008) 153
  28. Kim, K.I., Kwon, Y.: Single-image super-resolution using sparse regression andnatural image prior. Pattern Analysis and Machine Intelligence, IEEE Transactionson 32(6) (2010) 1127{1133
  29. Xiong, Z., Sun, X., Wu, F.: Robust web image/video super-resolution. ImageProcessing, IEEE Transactions on 19(8) (2010) 2017{2028
  30. Freeman, W.T., Jones, T.R., Pasztor, E.C.: Example-based super-resolution. Com-puter Graphics and Applications, IEEE 22(2) (2002) 56{65
  31. Chang, H., Yeung, D.Y., Xiong, Y.: Super-resolution through neighbor embedding.In: Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings ofthe 2004 IEEE Computer Society Conference on. Volume 1., IEEE (2004) I{I
  32. Glasner, D., Bagon, S., Irani, M.: Super-resolution from a single image. In: Com-puter Vision, 2009 IEEE 12th International Conference on, IEEE (2009) 349{356
  33. Yang, J., Lin, Z., Cohen, S.: Fast image super-resolution based on in-place exam-ple regression. In: Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. (2013) 1059{1066
  34. Sun, J., Zheng, N.N., Tao, H., Shum, H.Y.: Image hallucination with primal sketchpriors. In: Computer Vision and Pattern Recognition, 2003. Proceedings. 2003IEEE Computer Society Conference on. Volume 2., IEEE (2003) II{729
  35. Ni, K.S., Nguyen, T.Q.: Image superresolution using support vector regression.Image Processing, IEEE Transactions on 16(6) (2007) 1596{1610
  36. He, L., Qi, H., Zaretzki, R.: Beta process joint dictionary learning for coupledfeature spaces with application to single image super-resolution. In: Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition. (2013) 345{352
  37. Yang, J., Wright, J., Huang, T., Ma, Y.: Image super-resolution as sparse repre-sentation of raw image patches. In: Computer Vision and Pattern Recognition,2008. CVPR 2008. IEEE Conference on, IEEE (2008) 1{8
  38. Yang, J., Wright, J., Huang, T.S., Ma, Y.: Image super-resolution via sparserepresentation. Image Processing, IEEE Transactions on 19(11) (2010) 2861{2873
  39. Timofte, R., De Smet, V., Van Gool, L.: A+: Adjusted anchored neighborhoodregression for fast super-resolution. In: Computer Vision{ACCV 2014. Springer(2014) 111{126
  40. Schulter, S., Leistner, C., Bischof, H.: Fast and accurate image upscaling withsuper-resolution forests. In: Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. (2015) 3791{3799
  41. Huang, J.B., Singh, A., Ahuja, N.: Single image super-resolution from transformedself-exemplars. In: Computer Vision and Pattern Recognition (CVPR), 2015 IEEEConference on, IEEE (2015) 5197{5206
  42. Radford, A., Metz, L., Chintala, S.: Unsupervised representation learn-ing with deep convolutional generative adversarial networks. arXiv preprintarXiv:1511.06434 (2015)
  43. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition.arXiv preprint arXiv:1512.03385 (2015)
  44. Io_e, S., Szegedy, C.: Batch normalization: Accelerating deep network trainingby reducing internal covariate shift. In: Proceedings of The 32nd InternationalConference on Machine Learning. (2015) 448{456
  45. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scaleimage recognition. arXiv preprint arXiv:1409.1556 (2014)
  46. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z.,Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: ImageNet LargeScale Visual Recognition Challenge. International Journal of Computer Vision(IJCV) 115(3) (2015) 211{252
  47. Aly, H.A., Dubois, E.: Image up-sampling using total-variation regularization witha new observation model. Image Processing, IEEE Transactions on 14(10) (2005)1647{1659
  48. Zhang, H., Yang, J., Zhang, Y., Huang, T.S.: Non-local kernel regression for imageand video restoration. In: Computer Vision{ECCV 2010. Springer (2010) 566{579
  49. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll_ar, P.,Zitnick, C.L.: Microsoft coco: Common objects in context. In: Computer Vision{ECCV 2014. Springer (2014) 740{755
  50. Kingma, D., Ba, J.: Adam: A method for stochastic optimization. arXiv preprintarXiv:1412.6980 (2014)
  51. Collobert, R., Kavukcuoglu, K., Farabet, C.: Torch7: A matlab-like environmentfor machine learning. In: BigLearn, NIPSWorkshop. Number EPFL-CONF-192376(2011)
  52. Chetlur, S., Woolley, C., Vandermersch, P., Cohen, J., Tran, J., Catanzaro, B.,Shelhamer, E.: cudnn: E_cient primitives for deep learning. arXiv preprintarXiv:1410.0759 (2014)
  53. Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.P.: Image quality assessment:from error visibility to structural similarity. Image Processing, IEEE Transactionson 13(4) (2004) 600{612
  54. Hanhart, P., Korshunov, P., Ebrahimi, T.: Benchmarking of quality metrics onultra-high de_nition video sequences. In: Digital Signal Processing (DSP), 201318th International Conference on, IEEE (2013) 1{8
  55. Wang, Z., Bovik, A.C.: Mean squared error: love it or leave it? a new look at signal_delity measures. Signal Processing Magazine, IEEE 26(1) (2009) 98{117
  56. Huynh-Thu, Q., Ghanbari, M.: Scope of validity of psnr in image/video qualityassessment. Electronics letters 44(13) (2008) 800{801
  57. Sheikh, H.R., Sabir, M.F., Bovik, A.C.: A statistical evaluation of recent full refer-ence image quality assessment algorithms. Image Processing, IEEE Transactionson 15(11) (2006) 3440{3451
  58. Kundu, D., Evans, B.L.: Full-reference visual quality assessment for syntheticimages: A subjective study. Proc. IEEE Int. Conf. on Image Processing (2015)
  59. Bevilacqua, M., Roumy, A., Guillemot, C., Alberi-Morel, M.L.: Low-complexitysingle-image super-resolution based on nonnegative neighbor embedding. (2012)
  60. Zeyde, R., Elad, M., Protter, M.: On single image scale-up using sparse-representations. In: Curves and Surfaces. Springer (2010) 711-730