Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文理解

阿新 • • 發佈：2019-01-17

斯坦福大學的一篇基於感知損失函式的實時風格轉換和超分辨重建論文理解，暫時只對實時風格轉換部分做了理解，記錄如下，如有問題，歡迎指正。

這篇論文解決了之前Gatys等人實現的風格轉換費時比較久的問題。訓練了一個網路，其中直接包含前向生成部分，等模型訓練好了可以直接用於生成轉換圖片。這個網路與之前Gatys的影象生成對比：效果是差不多（個人覺得有些地方稍差點：感覺物體大部分分割比gatys的要稍差點，有些比Gatys的稍好，總體覺得Gatys的分割要好點），但是速度卻比Gatys的提升數百倍，達到3個數量級。

整個網路模型

風格轉換部分主要用了上面的網路模型，這個模型可以分為兩部分，左邊是影象轉換網路，右邊是損耗網路。其超解析度重建也是採用上面的網路模型，只是具體內部的影象轉換網路部分稍有區別。

上圖中間有3個變數，一個是轉換出來用於輸出的圖片y，一個是Style target ys，另一個是Conten Target yc。這裡對風格遷移變換yc = 輸入影象X，ys就是輸入的風格圖片，就是y是content Target和Style Target的結合。作為超解析度模型，這裡的yc是高解析度圖片，y是輸出的高解析度影象，style Target用不到。

這篇論文使用了感知損失函式來訓練網路的，我們在影象中之前經常會使用逐畫素比較的損失函式，即輸出影象和真實影象每畫素顏色空間的距離，使這個距離最小，這個方法其實一直存在弊端，譬如兩張基本一樣的影象，就是兩張圖片每個畫素相差1，基本視覺效果以及圖片結構等等都是一致的，但是其計算出來的損耗函式卻是比較大的。

這裡提到的感知損失函式就是通過預訓練CNN中提取的高層次的影象特徵來求差（特徵重建損失函式），這個部分的損耗函式求解方法和Gatys的方法基本是一致的。在風格重建時，越高層特徵，粒度越粗。內容重建時，越底層的特徵，重建效果越好。由內容和風格部分的損耗合成。

損耗函式計算：內容的損耗函式都是由生成圖片在高層上的特徵啟用值與實際內容影象在當前層上的特徵啟用值之間的距離差平方。風格的損耗函式是由生成圖片每層上的特徵與實際風格影象在當前層上的風格特徵之間的距離差平方的累加和。注意這裡：內容損耗只算了一層（比較高層的），而風格損耗函式是算了所有層上的差異平方和，和上圖一一對應，計算內容損耗的只是relu3_3,而風格損耗是每層的激勵值都進行計算。也可參考下圖，這張圖是Gatys的論文中的方法。除此之外還有一項總變差，主要是用於保證輸出影象的空間平滑性，避免高頻噪聲的。

Image Transform Net

Image Transform Net的輸入是要轉換的影象，輸出是轉換好的影象，在模型訓練好之後，用於生成風格遷移的只是這部分的網路。具體這部分的網路模型圖如下。

影象變換網路總體也屬於一個殘差網路。一共是由3個卷積層、5個殘差塊、3個卷積層構成。這裡沒有用到池化等操作進行採用，在開始卷積層中（第二層、第三層）進行了下采樣，在最後的3個卷積層中進行了上取樣，這樣最直接的就是減少了計算複雜度，另外還有一個好處是有效受區域變大，卷積下采樣都會增大有效區域。5個殘差塊都是使用相同個數的（128）濾鏡核，每個殘差塊中都有2個卷積層（3*3核），這裡的卷積層中沒有進行標準的0填充（padding），因為使用0填充會使生成出的影象的邊界出現嚴重偽影。為了保證輸入輸出影象大小不改變，在影象初始輸入部分加入了反射填充。

這裡的殘差網路不是使用何凱明的殘差網路（卷積之後沒有Relu），而是使用了Gross and Wilber的殘差網路。後面這種方法驗證在影象分類演算法上面效果比較好。

上面是一個殘差網路和等效的非殘差網路的結構，兩個結構得到相似的損耗函式，但是使用殘差網路的速度更大。

例項歸一化替代批歸一化能夠顯著提升前饋的風格遷移模型的質量。作者這裡在影象轉換的殘差網路中使用的是批歸一化，若使用例項歸一化代替，那麼前饋的風格遷移網路模型的質量會不會更好呢？只是個人估計。

Loss Network

採用16層的VGG模型，這個網路是直接採用ImageNet或者其它資料集進行影象分類的，先預訓練好的。

執行時間：

GPU一般小於1s，CPU執行需要幾秒。

補充：

計算損耗函式時，若內容損耗前的權重相對於風格損耗前的權重越大，則內容越明顯，若內容前的權重相對很小，則風格越明顯，小到一定程式將看不出內容，顯示的結果會是比較雜亂的風格圖。

疑問點：（已基本理解）

Gatys論文中的VGG模型是預訓練好的，裡面的權值不更新，只是通過梯度下降，不停的更改輸入來達到使損耗值最小，斯坦福這篇論文中的Loss Network的VGG-16的權重是預先訓練好，不需要訓練了，計算損失函式訓練只是為了訓練前面的影象轉換模型，而這個模型是採用SGD的方法更新權重~~，不知道理解是否正確？~~

程式碼地址 github

torch https://github.com/jcjohnson/fast-neural-style

tensorflow https://github.com/lengstrom/fast-style-transfer

參考資料

1.http://www.cnblogs.com/wangxiaocvpr/p/6298179.html

2.http://cs.stanford.edu/people/jcjohns/papers/eccv16/JohnsonECCV16Supplementary.pdf

3.http://jiqizhixin.com/article/1623

4.論文翻譯：http://www.jianshu.com/p/b728752a70e9

5.http://www.tuicool.com/articles/7fu6vm6

6.Image style transfer using convolutional neural networks

http://blog.csdn.net/stdcoutzyx/article/details/53771471

Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文理解

Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文理解

Perceptual Losses for Real-Time Style Transfer and Super-Resolution----論文筆記

論文閱讀筆記：Perceptual Losses for Real-Time Style Transfer and Super-Resolution

專案實訓（二十四）Perceptual Losses for Real-Time Style Transfer and Super-Resolution閱讀

[譯] Perceptual Losses for Real-Time Style Transfer and Super-Resolution（Stanford University）

部分選譯Perceptual losses for real-time style transfer and super-resolution.

論文筆記：Perceptual Losses for Real-Time Style Transfer and Super-Resolution[doing]

實時語義分割--ICNet for Real-Time Semantic Segmentation on High-Resolution Images

《Optimized contrast enhancement for real-time image and video dehazin》論文C++復現

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

Staple: Complementary Learners for Real-Time Tracking——筆記

Filtering Approaches for Real-Time Anti-Aliasing（2011 SIGGRAPH）

《Dynamic Mode Decomposition for Real-Time Background/Foreground Separation in Video》讀書筆記

論文閱讀筆記十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

[Paper Reading] A QoE-based Sender Bit Rate Adaptation Scheme for Real-time Video Transmission

6-----A Random Forest Method for Real-Time Price Forecasting in New York Electricity Market

SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from

A Google Congestion Control for Real-Time Communication on the World - 01---谷歌網路擁塞控制翻譯文件第一篇

CPU Real-time Face Detection and Alignment-68 using MTCNN

最新論文閱讀（21）--Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convoluti

Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文 理解

相關推薦

Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文理解