1. 程式人生 > >Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文 理解

Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文 理解

      斯坦福大學的一篇基於感知損失函式的實時風格轉換和超分辨重建論文理解,暫時只對實時風格轉換部分做了理解,記錄如下,如有問題,歡迎指正。

      這篇論文解決了之前Gatys等人實現的風格轉換費時比較久的問題。訓練了一個網路,其中直接包含前向生成部分,等模型訓練好了可以直接用於生成轉換圖片。這個網路與之前Gatys的影象生成對比:效果是差不多(個人覺得有些地方稍差點:感覺物體大部分分割比gatys的要稍差點,有些比Gatys的稍好,總體覺得Gatys的分割要好點),但是速度卻比Gatys的提升數百倍,達到3個數量級。


整個網路模型

      風格轉換部分主要用了上面的網路模型,這個模型可以分為兩部分,左邊是影象轉換網路,右邊是損耗網路。其超解析度重建也是採用上面的網路模型,只是具體內部的影象轉換網路部分稍有區別。

     上圖中間有3個變數,一個是轉換出來用於輸出的圖片y,一個是Style target ys,另一個是Conten Target yc。這裡對風格遷移變換yc = 輸入影象X,ys就是輸入的風格圖片,就是y是content Target和Style Target的結合。作為超解析度模型,這裡的yc是高解析度圖片,y是輸出的高解析度影象,style Target用不到。

       這篇論文使用了感知損失函式來訓練網路的,我們在影象中之前經常會使用逐畫素比較的損失函式,即輸出影象和真實影象每畫素顏色空間的距離,使這個距離最小,這個方法其實一直存在弊端,譬如兩張基本一樣的影象,就是兩張圖片每個畫素相差1,基本視覺效果以及圖片結構等等都是一致的,但是其計算出來的損耗函式卻是比較大的。

       這裡提到的感知損失函式就是通過預訓練CNN中提取的高層次的影象特徵來求差(特徵重建損失函式),這個部分的損耗函式求解方法和Gatys的方法基本是一致的。在風格重建時,越高層特徵,粒度越粗。內容重建時,越底層的特徵,重建效果越好。由內容和風格部分的損耗合成。

       損耗函式計算:內容的損耗函式都是由生成圖片在高層上的特徵啟用值與實際內容影象在當前層上的特徵啟用值之間的距離差平方。風格的損耗函式是由生成圖片每層上的特徵與實際風格影象在當前層上的風格特徵之間的距離差平方的累加和。注意這裡:內容損耗只算了一層(比較高層的),而風格損耗函式是算了所有層上的差異平方和,和上圖一一對應,計算內容損耗的只是relu3_3,而風格損耗是每層的激勵值都進行計算。也可參考下圖,這張圖是Gatys的論文中的方法。除此之外還有一項總變差,主要是用於保證輸出影象的空間平滑性,避免高頻噪聲的。


Image Transform Net

       Image Transform Net的輸入是要轉換的影象,輸出是轉換好的影象,在模型訓練好之後,用於生成風格遷移的只是這部分的網路。具體這部分的網路模型圖如下。

       影象變換網路總體也屬於一個殘差網路。一共是由3個卷積層、5個殘差塊、3個卷積層構成。這裡沒有用到池化等操作進行採用,在開始卷積層中(第二層、第三層)進行了下采樣,在最後的3個卷積層中進行了上取樣,這樣最直接的就是減少了計算複雜度,另外還有一個好處是有效受區域變大,卷積下采樣都會增大有效區域。5個殘差塊都是使用相同個數的(128)濾鏡核,每個殘差塊中都有2個卷積層(3*3核),這裡的卷積層中沒有進行標準的0填充(padding),因為使用0填充會使生成出的影象的邊界出現嚴重偽影。為了保證輸入輸出影象大小不改變,在影象初始輸入部分加入了反射填充。

      這裡的殘差網路不是使用何凱明的殘差網路(卷積之後沒有Relu),而是使用了Gross and Wilber的殘差網路 。後面這種方法驗證在影象分類演算法上面效果比較好。



      上面是一個殘差網路和等效的非殘差網路的結構,兩個結構得到相似的損耗函式,但是使用殘差網路的速度更大。

例項歸一化替代批歸一化能夠顯著提升前饋的風格遷移模型的質量。作者這裡在影象轉換的殘差網路中使用的是批歸一化,若使用例項歸一化代替,那麼前饋的風格遷移網路模型的質量會不會更好呢?只是個人估計。

Loss Network

      採用16層的VGG模型,這個網路是直接採用ImageNet或者其它資料集進行影象分類的,先預訓練好的。

執行時間:

GPU一般小於1s,CPU執行需要幾秒。

補充:

計算損耗函式時,若內容損耗前的權重相對於風格損耗前的權重越大,則內容越明顯,若內容前的權重相對很小,則風格越明顯,小到一定程式將看不出內容,顯示的結果會是比較雜亂的風格圖。

疑問點:(已基本理解)

Gatys論文中的VGG模型是預訓練好的,裡面的權值不更新,只是通過梯度下降,不停的更改輸入來達到使損耗值最小,斯坦福這篇論文中的Loss Network的VGG-16的權重是預先訓練好,不需要訓練了,計算損失函式訓練只是為了訓練前面的影象轉換模型,而這個模型是採用SGD的方法更新權重,不知道理解是否正確?

程式碼地址 github

torch  https://github.com/jcjohnson/fast-neural-style

tensorflow  https://github.com/lengstrom/fast-style-transfer

參考資料

1.http://www.cnblogs.com/wangxiaocvpr/p/6298179.html

2.http://cs.stanford.edu/people/jcjohns/papers/eccv16/JohnsonECCV16Supplementary.pdf

3.http://jiqizhixin.com/article/1623

4.論文翻譯:http://www.jianshu.com/p/b728752a70e9

5.http://www.tuicool.com/articles/7fu6vm6

6.Image style transfer using convolutional neural networks

http://blog.csdn.net/stdcoutzyx/article/details/53771471

相關推薦

Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文 理解

      斯坦福大學的一篇基於感知損失函式的實時風格轉換和超分辨重建論文理解,暫時只對實時風格轉換部分做了理解,記錄如下,如有問題,歡迎指正。       這篇論文解決了之前Gatys等人實現的風格轉換費時比較久的問題。訓練了一個網路,其中直接包含前向生成部分,等模

Perceptual Losses for Real-Time Style Transfer and Super-Resolution----論文筆記

本文是參考文獻[1]的筆記。該論文是Li Fei-Fei名下的論文。 引入 最近新出的影象風格轉換演算法,雖然效果好,但對於每一張要生成的圖片,都需要初始化,然後保持CNN的引數不變,反向傳播更新影象,得到最後的結果。效能問題堪憂。 但是影象風格轉換演算法的成功,在

論文閱讀筆記:Perceptual Losses for Real-Time Style Transfer and Super-Resolution

這篇文章是ECCV2016的一篇文章,主要是提出了一種全新的Loss用於影象風格轉換和影象超分辨。整體框架如上圖所示,分為兩個網路,影象轉換網路和損失網路,其中影象轉換網路是深度殘差網路,將圖片轉換為^ y = fW (x) 。我們訓練影象轉換網路來最小化損失網路的輸出值加權

專案實訓(二十四)Perceptual Losses for Real-Time Style Transfer and Super-Resolution閱讀

三、損失函式 雖然文章說的是perceptual losss,但是感覺上跟上一篇文章的約束並沒有什麼區別,我們可以來看看。 Feature Reconstruction Loss j表示網路的第j層。 CjHjWj表示第j層的feature_map的size St

[譯] Perceptual Losses for Real-Time Style Transfer and Super-Resolution(Stanford University)

轉載地址:http://www.jianshu.com/p/b728752a70e9 Abstract   摘要:我們考慮的影象轉換的問題,即將一個輸入影象變換成一個輸出影象。最近熱門的影象轉換的方法通常是訓練前饋卷積神經網路,將輸出影象與原本影象的逐畫素差距作為損失

部分選譯Perceptual losses for real-time style transfer and super-resolution.

3.方法 就像圖二顯示的,我們的系統由兩部分組成:一個影象轉換網路fW和一個被用來定義幾個損失函式的損失網路ϕ 。這個圖*像轉換網路是一個深度殘差卷積神經網路,由權重W引數化。它將輸入圖片x轉化成使出圖片y^,通過製圖函式y^=fW(x).每一個損失函式計

論文筆記:Perceptual Losses for Real-Time Style Transfer and Super-Resolution[doing]

1.transformation: image to image  2.perceptual losses:      psnr是per-pixel的loss,值高未必代表圖片質量好,廣泛應用只是因為

實時語義分割--ICNet for Real-Time Semantic Segmentation on High-Resolution Images

語義分割演算法精度和速度對比: 由圖可以看出,ResNet38,PSPNet,DUC精度雖然較高,但是無法速度相對較慢,無法達到實時,ENet速度較快,但精度較低,而本文演算法既可以達到實時,精度也相對較高. Speed Analysis PSPN

《Optimized contrast enhancement for real-time image and video dehazin》論文C++復現

前言 \quad 本文提出了一種針對含有霧的影象和視訊快速、完善的去霧演算法。觀察發現有霧的影象普遍具有低對比度,我們通過增強對比度來

論文筆記:目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好 早期 形式化 基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

Staple: Complementary Learners for Real-Time Tracking——筆記

ear sta rac 特征 前景 大小 time 直方圖 筆記 Stalpe = DSST + 顏色直方圖 初始化   求出patch的前景顏色直方圖和背景顏色直方圖   建立高斯標簽   尺度濾波器 第一幀   求位移濾波器   求尺度濾波器 第二幀   根據上一幀的位

Filtering Approaches for Real-Time Anti-Aliasing(2011 SIGGRAPH)

siggraph The sam 不同 gin d3d optional posit ear Filtering Approaches for Real-Time Anti-Aliasing(2011 SIGGRAPH) 在2011的SIGGRAPH上,NVIDA提出了F

《Dynamic Mode Decomposition for Real-Time Background/Foreground Separation in Video》讀書筆記

題目:Dynamic Mode Decomposition for Real-Time Background/Foreground Separation in Video 作者:J.Grosek and J.Nathan Kutz 連結:https://pdfs.semanticschola

論文閱讀筆記十八:ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

每一個 內核 基於 proc vgg 包含 rep 重要 偏差 論文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要

[Paper Reading] A QoE-based Sender Bit Rate Adaptation Scheme for Real-time Video Transmission

A QoE-based Sender Bit Rate Adaptation Scheme for Real-time Video Transmission in Wireless Networks 發表 這篇文章發表於CISP2013,作者是南郵的Chao Qian。 概述

6-----A Random Forest Method for Real-Time Price Forecasting in New York Electricity Market

實時價格的隨機森林法紐約電力市場預測(清華的) 隨機森林,作為一種新引入的方法,將提供價格概率分佈   此外,該模型可以調整最新的預報條件,即最新的氣候,季節和市場條件,通過更新隨機森林 引數與新的觀測。這種適應性避免了不同氣候或經濟條件下的模型失效訓練集。  

SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from

摘要 在本文中,我們從三維鐳射雷達點雲的角度對道路目標進行了語義分割。我們特別希望檢測和分類感興趣的例項,例如汽車、行人和騎自行車的人。我們制定這個問題作為一個逐點分類的問題,並提出一個端到端的管道稱為SqueezeSeg基於卷積神經網路(CNN):C

A Google Congestion Control for Real-Time Communication on the World - 01---谷歌網路擁塞控制翻譯文件第一篇

原文地址: https://tools.ietf.org/html/draft-alvestrand-rtcweb-congestion-00 概述: 這篇文件介紹了2個實時網路傳輸過程中的擁塞控制方法,一個是基於傳送端的,另一個是基於接收端的. 專有名詞:RTCWEB Real-t

CPU Real-time Face Detection and Alignment-68 using MTCNN

mtcnn的landmark採用了5點迴歸,博主嘗試了68點迴歸,發現效果不錯! 主要特點:同時完成人臉檢測和特徵點回歸,演算法速度實時! 開源地址:https://github.com/samylee/mtcnn_landmark68(歡迎star和fork)   1

最新論文閱讀(21)--Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convoluti

Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network - 2016年9月 - 超解析度 -