1. 程式人生 > >部分選譯Perceptual losses for real-time style transfer and super-resolution.

部分選譯Perceptual losses for real-time style transfer and super-resolution.

核心框圖

3.方法

就像圖二顯示的,我們的系統由兩部分組成:一個影象轉換網路fW和一個被用來定義幾個損失函式的損失網路ϕ 。這個圖*像轉換網路是一個深度殘差卷積神經網路,由權重W引數化。它將輸入圖片x轉化成使出圖片y^,通過製圖函式y^=fW(x).每一個損失函式計算一個標量值li(y^,yi)測量輸出影象y^和目標影象yi之間的不同。這個影象轉化網路使用隨機梯度下降SGD進行訓練,以將這個權重組合損失函式最小化:

W=argminWEx,{yi}[Σi=1λili(fW(x),yi)]
為了解釋對應畫素損失的缺點,讓我們的損失函式來更好的測量兩張圖片間知覺和語義的不同,我們從最近通過優化[6,7,8,9,10]生成圖片的工作中吸取了靈感。從這些方法中得到的核心的啟迪是事先訓練好的用於影象分類的卷積經網路已經學會去解碼我們想要用來測量損失函式的知覺和語義資訊。因此,我們使用已經事先訓練好的影象分類網路ϕ
作為一個固的損失函式來定義我們的損失函式。我們的深度卷積轉化網路接下來使用深度卷積網路作為損失函式。
損失網路ϕ被用來定義一個特徵重建損失lϕfeat和一個風格重建損失lϕstyle,被用來測量影象之間內容和格式的不同。對每一個輸入影象\textup{x},我們有一個內容目標yc和一個風格目標ys。對風格轉化來說,內容目標yc就是輸入影象\textup{x}和輸出影象y^應該在風格ys中組合x=yc的內容。我們對每一個風格訓練一個神經網路。對單個影象超解析度,輸入影象x是一個低解析度輸入,內容目標yc是真實的高解析度影象,分割轉化損失函式沒有使用。我們對每一個超分辨因子訓練一個神經網路。

3.1影象轉化網路

我們的影象轉化網路大體上服從了Radford[42]中提出的中的搭建指導。我們沒有使用任何的池化層,相反使用步進和分佈步進的卷積層來進行層內的下采樣和上取樣。我們的網路結構由五個殘差塊[43]構成,使用[44]中的構架。所有的非殘差卷積層都由空間批次歸一化[45]和ReLU非線性化,除了最後一層輸出層使用了一個排列的tanh以使輸出影象在[0,255]之間。除了第一層和最後一層使用9x9的卷積核,其餘所有的卷積層都使用3x3的卷積核。我們所有網路的確切構建結構都可以在提供的材料中找到。
輸入和輸出
對風格轉化,輸入和輸出都是3x256x256的彩色圖片。對使用上取樣因子f的超分辨,輸出是高解析度影象3x288x288,輸入是低解析度3x288/fx288/f。因為影象傳化網路是全卷積的,在測試時,它可以被應用在任何解析度的影象上。
下采樣和上取樣


對使用上取樣因子f超分辨,我們使用幾個殘差塊,緊連著log2f步長為1/2的卷積層。此處與[1]中在輸入前使用的二元三次插值上取樣處理低解析度輸入到網路不同。並非依賴於一個固定的上取樣函式,分子步長卷積允許上取樣函式和其他的網路一起被學習。和6類似,我們使用優化策略來尋找對已經事先訓練好的VGG-16損失網路$\phi$的幾個層j已經最小化特徵重建損失$l_{feat}^{\phi,j}(\hat{y},y)$的影象$\hat{y}$,在我們從高層重建時,影象內容和整體空間架構得到儲存,但是顏色,紋理和確切的形狀沒有][和6類似,我們使用優化策略來尋找對已經事先訓練好的VGG-16損失網路$\phi$的幾個層j已經最小化特徵重建損失$l_{feat}^{\phi,j}(\hat{y},y)$的影象$\hat{y}$,在我們從高層重建時,影象內容和整體空間架構得到儲存,但是顏色,紋理和確切的形狀沒有” 和6類似,我們使用優化策略來尋找對已經事先訓練好的VGG-16損失網路ϕ的幾個層j已經最小化特徵重建損失lϕ,jfeat(y^,y)的影象y^,在我們從高層重建時,影象內容和整體空間架構得到儲存,但是顏色,紋理和確切的形狀沒有”
對風格轉化,我們的網路使用步長為2的卷積層下采樣處理輸入,緊接著是幾個殘差塊,然後是兩個使用1/2步長的上取樣。雖然輸入和輸出是相同的大小,先下采樣後上取樣的網路有幾個好處。
首先是計算效能。一個缺乏經驗的用法,一個3x3卷積層濾波C處理一個形狀為CxHxW的影象,需要有9HWC2個乘加運算,而相同的開銷當一個3x3的卷積層濾波DC處理輸入形狀為DCxH/DxW/D。在下采樣後,我們可以在相同的計算開銷下使用更大的網路。
第二個好處是可以有更加有效率的感受野尺寸。高質量的風格轉換需要在合乎邏輯的方法下改變影象的大部分地方,因此對每個輸出影象的畫素來說,輸入有一個大的高效感受野更加有優勢。沒有下采樣,每一個附加的3x3卷積層增加感受野的效率是2。而在使用因子為D的下采樣後,每一個3x3的卷積層可以增加有效的感受野是2D,給以了更大的有效感受野使用相同的層數。
**殘差連線**He等[43]使用了殘差連線來訓練非常深的神經網路來處理影象分類。他們主張殘差連線使網路更加容易的學會鑑別函式。對影象轉化網路來說,這是一個誘人的效能,因為在大多數情況下,輸出影象應該和輸入影象共享一些結構。因此,我們的網路結構由幾個殘差塊組成,每一個包含兩個3x3的卷積層。我們使用殘差塊設計[44],在提供的材料中給出了。

3.2感受損失函式

我們定義了兩個感受損失函式(perceptual loss functions)用來測量高層中影象知覺和語義的不同。它們利用了損失網路ϕ,事先在影象分類上訓練,意味著這些感知損失函式本身就是深度卷積網路。在我們所有的實驗中,ϕ都是16層的VGG網路[46],事先在[47]中的ImageNet資料集中訓練的。這裡寫圖片描述”和10類似,我們使用優化策略來尋找對已經事先訓練好的VGG-16損失網路ϕ的幾個層j已經最小化特徵重建損失lϕ,jfeat(y^,y)的影象y^,在我們從高層重建時,影象內容和整體空間架構得到儲存,但是顏色,紋理和確切的形狀沒有”
特徵重建損失不鼓勵輸出影象y^=fW(x)來確切的和目標影象y畫素點點契合,我們激勵它們在損失網路ϕ中有相類似的特徵表現。來讓ϕj(x)作為第j層神經網路ϕ的激勵,如果j是一個卷積層,那麼ϕj(x)將代表形狀為Cj×Hj×Wj的特徵影象。特徵重建損失函式是兩個特徵表徵的平方歸一歐式距離:

lϕ,jfeat=1CjHjWj||ϕj(y^)ϕj(y)|

相關推薦

分選Perceptual losses for real-time style transfer and super-resolution.

3.方法 就像圖二顯示的,我們的系統由兩部分組成:一個影象轉換網路fW和一個被用來定義幾個損失函式的損失網路ϕ 。這個圖*像轉換網路是一個深度殘差卷積神經網路,由權重W引數化。它將輸入圖片x轉化成使出圖片y^,通過製圖函式y^=fW(x).每一個損失函式計

[] Perceptual Losses for Real-Time Style Transfer and Super-Resolution(Stanford University)

轉載地址:http://www.jianshu.com/p/b728752a70e9 Abstract   摘要:我們考慮的影象轉換的問題,即將一個輸入影象變換成一個輸出影象。最近熱門的影象轉換的方法通常是訓練前饋卷積神經網路,將輸出影象與原本影象的逐畫素差距作為損失

Perceptual Losses for Real-Time Style Transfer and Super-Resolution 論文 理解

      斯坦福大學的一篇基於感知損失函式的實時風格轉換和超分辨重建論文理解,暫時只對實時風格轉換部分做了理解,記錄如下,如有問題,歡迎指正。       這篇論文解決了之前Gatys等人實現的風格轉換費時比較久的問題。訓練了一個網路,其中直接包含前向生成部分,等模

論文閱讀筆記:Perceptual Losses for Real-Time Style Transfer and Super-Resolution

這篇文章是ECCV2016的一篇文章,主要是提出了一種全新的Loss用於影象風格轉換和影象超分辨。整體框架如上圖所示,分為兩個網路,影象轉換網路和損失網路,其中影象轉換網路是深度殘差網路,將圖片轉換為^ y = fW (x) 。我們訓練影象轉換網路來最小化損失網路的輸出值加權

專案實訓(二十四)Perceptual Losses for Real-Time Style Transfer and Super-Resolution閱讀

三、損失函式 雖然文章說的是perceptual losss,但是感覺上跟上一篇文章的約束並沒有什麼區別,我們可以來看看。 Feature Reconstruction Loss j表示網路的第j層。 CjHjWj表示第j層的feature_map的size St

Perceptual Losses for Real-Time Style Transfer and Super-Resolution----論文筆記

本文是參考文獻[1]的筆記。該論文是Li Fei-Fei名下的論文。 引入 最近新出的影象風格轉換演算法,雖然效果好,但對於每一張要生成的圖片,都需要初始化,然後保持CNN的引數不變,反向傳播更新影象,得到最後的結果。效能問題堪憂。 但是影象風格轉換演算法的成功,在

論文筆記:Perceptual Losses for Real-Time Style Transfer and Super-Resolution[doing]

1.transformation: image to image  2.perceptual losses:      psnr是per-pixel的loss,值高未必代表圖片質量好,廣泛應用只是因為

實時語義分割--ICNet for Real-Time Semantic Segmentation on High-Resolution Images

語義分割演算法精度和速度對比: 由圖可以看出,ResNet38,PSPNet,DUC精度雖然較高,但是無法速度相對較慢,無法達到實時,ENet速度較快,但精度較低,而本文演算法既可以達到實時,精度也相對較高. Speed Analysis PSPN

論文筆記:目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好 早期 形式化 基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

Staple: Complementary Learners for Real-Time Tracking——筆記

ear sta rac 特征 前景 大小 time 直方圖 筆記 Stalpe = DSST + 顏色直方圖 初始化   求出patch的前景顏色直方圖和背景顏色直方圖   建立高斯標簽   尺度濾波器 第一幀   求位移濾波器   求尺度濾波器 第二幀   根據上一幀的位

Filtering Approaches for Real-Time Anti-Aliasing(2011 SIGGRAPH)

siggraph The sam 不同 gin d3d optional posit ear Filtering Approaches for Real-Time Anti-Aliasing(2011 SIGGRAPH) 在2011的SIGGRAPH上,NVIDA提出了F

《Dynamic Mode Decomposition for Real-Time Background/Foreground Separation in Video》讀書筆記

題目:Dynamic Mode Decomposition for Real-Time Background/Foreground Separation in Video 作者:J.Grosek and J.Nathan Kutz 連結:https://pdfs.semanticschola

論文閱讀筆記十八:ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

每一個 內核 基於 proc vgg 包含 rep 重要 偏差 論文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要

[Paper Reading] A QoE-based Sender Bit Rate Adaptation Scheme for Real-time Video Transmission

A QoE-based Sender Bit Rate Adaptation Scheme for Real-time Video Transmission in Wireless Networks 發表 這篇文章發表於CISP2013,作者是南郵的Chao Qian。 概述

6-----A Random Forest Method for Real-Time Price Forecasting in New York Electricity Market

實時價格的隨機森林法紐約電力市場預測(清華的) 隨機森林,作為一種新引入的方法,將提供價格概率分佈   此外,該模型可以調整最新的預報條件,即最新的氣候,季節和市場條件,通過更新隨機森林 引數與新的觀測。這種適應性避免了不同氣候或經濟條件下的模型失效訓練集。  

SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from

摘要 在本文中,我們從三維鐳射雷達點雲的角度對道路目標進行了語義分割。我們特別希望檢測和分類感興趣的例項,例如汽車、行人和騎自行車的人。我們制定這個問題作為一個逐點分類的問題,並提出一個端到端的管道稱為SqueezeSeg基於卷積神經網路(CNN):C

A Google Congestion Control for Real-Time Communication on the World - 01---谷歌網路擁塞控制翻譯文件第一篇

原文地址: https://tools.ietf.org/html/draft-alvestrand-rtcweb-congestion-00 概述: 這篇文件介紹了2個實時網路傳輸過程中的擁塞控制方法,一個是基於傳送端的,另一個是基於接收端的. 專有名詞:RTCWEB Real-t

《Optimized contrast enhancement for real-time image and video dehazin》論文C++復現

前言 \quad 本文提出了一種針對含有霧的影象和視訊快速、完善的去霧演算法。觀察發現有霧的影象普遍具有低對比度,我們通過增強對比度來

閱讀論文《Deep Bilateral Learning for Real-Time Image Enhancement》

   這是2017 siggraph的一篇論文,寒假boss讓我看這篇論文我沒怎麼看懂。最近在公司實習,發現該論文的成果已經移到手機端上了,效果還非常不錯。這裡我重新溫習了一下這篇論文,發現有許多可以借鑑的地方,是一篇非常不錯的論文,這裡重新敘述一下,談談我的理

學習筆記:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

這篇論文中設計的網路結構用於seetaface人臉識別引擎中。 作者提出了一個粗到精的自動編碼網路(CFAN),級聯了一些堆疊自動編碼網路(SANs)。 1、初步是將檢測到的整體的人臉的低解析度版本作為輸入,這樣第一個SAN就能快速並足夠準確的預測標誌點。---全域性SAN