LAPGAN：Deep Generative/Image Models using a Laplacian Pyramid of Adversarial Networks 使用拉普拉斯金字塔的GAN

Emily Denton Dept. of Computer Science Courant Institute New York University Soumith Chintala Arthur Szlam Rob Fergus Facebook AI Research New York

原文連結，引用請註明出處

摘要

本文介紹了一種能夠生成高質量自然影象樣本的生成引數模型。作者的方法在拉普拉斯金字塔框架內使用級聯卷積網路，以粗略到精細的方式生成影象。在金字塔的每個層，使用生成對抗網路（GAN）[11]的方法訓練單獨的生成性連線模型。從該模型中抽取的樣本質量明顯高於其他方法。在人類評估員的主觀評估中，CIFAR10樣本有大約40%被評估員認為是真實影象，而從GAN的baseline模型中抽取的樣本則只有10％。作者還展示了在LSUN場景資料集的高解析度影象上訓練的模型的樣本。

1 引言

建立良好的自然影象生成模型一直是計算機視覺中的一個基礎的問題。然而，由於影象的結構複雜且尺寸很大，對影象建立良好的模型是很困難的。考慮到以高解析度對整個場景進行建模的困難，大多數現有方法是生成影象塊。相比之下，作者提出了一種方法，能夠在 $32×32$ 和 $64$

× 64 64×64

64 \times 64

的尺度下，生成看似合理的影象。為此，作者利用自然影象的多尺度結構，構建一系列生成模型，每個模型都利用拉普拉斯金字塔[1]捕獲不同尺度的影象結構。該策略將原始問題分解為一系列更易於解決的子問題。在每個尺度上，作者使用Goodfellow等人的Generative Adversarial Networks（GAN）[11]方法訓練基於卷積網路的生成模型。生成的樣本以從粗到細的方式被繪製，從低頻殘留影象開始。第二級金字塔採用帶通結構，以取樣殘差為條件。後續級的金字塔繼續此過程，始終調整先前比例的輸出，直到達到最後一層金字塔。因此，繪製樣本是一種有效且簡單的過程：將隨機向量作為輸入並通過級聯的深度卷積網路（convnets）向前執行以產生生成影象。

事實證明，深度學習方法在視覺中的判別任務中非常有效，例如目標分類[4]。然而，儘管做了很多努力[14,26,30]，生成任務還沒有取得同樣的成功。在這種背景下，作者提出的方法取得了重大進展，因為它可以直接進行訓練和取樣，結果樣本顯示出令人驚訝的視覺保真度。

1.1 相關工作

影象生成模型的研究很多，主要分為兩種方法：非引數方法和引數方法。前人從訓練影象中複製影象塊以執行例如紋理合成[7]，或超解析度[9]。更雄心勃勃的是，如果給定足夠大的訓練資料量，影象的整個部分可以進行繪製[13]。早期的引數方法解決了例如紋理合成[3,33,22]之類的簡單問題（Portilla和Simoncelli[22]利用可操縱的金字塔小波表示[27]，類似於這裡對拉普拉斯金字塔的使用）。對於影象處理任務，基於影象梯度的邊緣分佈模型是有
效的[20,25]，但這僅用於影象恢復而不是真正的概率密度模型（因此不能對實際影象樣本進行生成）。也可以使用非常大的高斯混合模型[34]和影象塊的稀疏編碼模型[31]，但是這些工作都面臨著同樣的問題。

很多深度學習方法涉及生成引數模型。受限Boltzmann機[14,18,21,23]，深度Boltzmann機[26,8]，去噪自動編碼器[30]都有一個生成解碼器，可以從潛在表示中重建影象。變分自動編碼器[16,24]提供了便於取樣的概率解釋。然而，對於所有這些方法，令人信服的實驗僅在諸如MNIST和NORB的簡單資料集上被展示過，可能是由於訓練複雜性限制了它們對更大和更逼真的影象的適用性。

最近幾篇論文提出了新的生成模型。Dosovitskiy等[6]展示了一個卷積網路如何能夠繪製出具有不同形狀和視角下的椅子。作者的模型也使用了convnet，它能夠對一般場景和物件進行取樣。Gregor等人的DRAW模型[12]使用具有RNN的注意機制通過影象塊的軌跡生成影象，並給予MNIST和CIFAR10影象樣本進行了樣本生成。Sohl-Dickstein等[28]使
用基於擴散的過程進行深度無監督學習，得到的模型能夠生成合理的CIFAR10樣本。Theis和Bethge[29]採用LSTM來捕捉空間依賴性並展示令人信服的自然紋理修復效果。

作者的工作建立在Goodfellow等的GAN[11]的基礎之上。原始的GAN適用於較小的影象（例如MNIST）但不能處理大影象。與作者的方法最相關的是Mirza和Osindero[19]以及Gauthier[10]的初步工作，他們都提出了GAN模型的有條件版本。前者基於MNIST樣本，而後者僅關注正面的人臉影象。作者的方法也使用了幾種形式的條件GAN模型，但其應用範圍更加激進。

2 方法

作者方法的基本構建是Goodfellow等人的生成對抗網路（GAN）[11]。在回顧了這一點之後，作者介紹了自己的LAPGAN模型，該模型將條件形式的GAN模型整合到拉普拉斯金字塔的框架中。

GAN方法[11]是一個訓練生成模型的框架，本節在影象資料的背景下進行了簡要解釋。該方法使兩個網路彼此對抗：捕獲資料分佈的生成模型 $G$ ，和區分 $G$ 繪製的樣本與訓練資料的影象的辨別模型 $D$ 。在本文的方法中， $G$ 和 $D$ 都是卷積網路。前者以從噪聲分佈 $p_{Noise}(z)$ 中提取的噪聲向量 $z$ 作為輸入，並輸出影象 $\tilde{h}$ 。辨別網路 $D$ 將 $\tilde{h}$ （ $G$ 生成的影象）或者 $h$ （來自訓練資料分佈 $p_{Data}(h)$ 的影象）作為隨機選擇（具有相等概率）的輸入， $D$ 的輸出是標量概率，如果輸入為真實樣本，則概率較高，如果從G生成，則概率較低。最後使用minimax目標將兩個模型訓練在一起：
$\min_G \max_D V(D, G)=\mathbb E_{h\sim p_{Data}\ \ (h)}[\log {D(h)}]+\mathbb E_{z\sim p_{Noise} (z)}[\log(1-D(G(z)))].\tag{1}$
這鼓勵 $G$ 擬合 $p_{Data}(h)$ 以便用其生成的樣本"欺騙" $D$ 。在以上的式子中， $G$ 和 $D$ 都是通過反向傳播方程中的損失來訓練的兩個模型來更新引數。

條件生成對抗網路（CGAN）是GAN的擴充套件，其中網路 $G$ 和 $D$ 都接收 $l$ 作為輸入的附加資訊向量。這可能包含有關訓練樣本 $h$ 的類別的資訊。因此損失函式變為
$\min_G \max_D V(D, G)=\mathbb E_{h,l\sim p_{Data}\ \ (h,l)}[\log {D(h,l)}]+\mathbb E_{z\sim p_{Noise} (z),l\sim p_l\ {l}}[\log(1-D(G(z,l\ ),l\ ))].\tag{2}$
其中 $p_l\ (l)$ 是類別的先驗分佈。該模型允許生成模型的輸出由調節變數 $l$ 控制。Mirza和Osindero [19]以及Gauthier [10]都使用 $l$ 作為類指示器，通過在MNIST和人臉資料集上的實驗來探索這個模型。在本文的方法中， $l$ 是從另一個CGAN模型生成的影象。

2.2 拉普拉斯金字塔

拉普拉斯金字塔[1]是線性可逆影象表示，由一組帶通影象組成，在空間上相隔八個畫素，另加上低頻殘差。形式上，令 $d(.)$ 是下采樣操作，它可以模糊和抽取一個 $j×j$ 影象 $I$ ，生成一個 $j/2×j/2$ 的新影象 $d(I)$ 。另外，令 $u(.)$ 是一個上取樣運算子，它影象 $I$ 將平滑和擴充套件為兩倍大小，因此 $u(I)$ 是一個大小為2j 2j的新影象。要建立一個拉普拉斯金字塔，首先建立一個高斯金字塔 $\mathcal G(I)=[I_0,I_1,. . . ,I_k]$ ，其中

LAPGAN：Deep Generative/Image Models using a Laplacian Pyramid of Adversarial Networks 使用拉普拉斯金字塔的GAN

Emily Denton Dept. of Computer Science Courant Institute New York University Soumith Chintala

GANs學習系列(7)：拉普拉斯金字塔生成式對抗網路Laplacian Pyramid of Adversarial Networks

【前言】本文首先介紹生成式模型，然後著重梳理生成式模型（Generative Models）中生成對抗網路（Generative Adversarial Network）的研究與發展。作者按照GAN主幹論文、GAN應用性論文、GAN相關論文分類整理了45篇近

生成式對抗網路GAN研究進展（四）——Laplacian Pyramid of Adversarial Networks，LAPGAN

【前言】本文首先介紹生成式模型，然後著重梳理生成式模型（Generative Models）中生成對抗網路（Generative Adversarial Network）的研究與發展。作者按照GAN主幹論文、GAN應用性論文、GAN相關論文

Local Laplacian Filters : Edge-Aware Image Processing with a Laplacian Pyramid

Abstract 因為它是由空間不變的高斯核構造的，所以拉普拉斯金字塔被廣泛認為不適合表示邊緣，以及進行邊緣感知操作。在本文中，我們展示了使用標準拉普拉斯金字塔的最先進的邊緣軟體處理。我們使用畫素值上的簡單閾值來表徵邊緣，這使我們能夠區分大規模邊緣和小規模細節。我們

論文筆記：Tag-Aware Personalized Recommendation Using a Hybrid Deep Model

感想這篇論文，我斷斷續續的看了幾天，作者做的工作也挺多的，我感覺論文的資料集還是不夠大，還不足以支撐訓練其它深度神經網路的地步。本文提出的混合深度學習完全是autoencoder的一個變體，用來解決標籤資料稀疏性，不可控詞彙表等問題，由於添加了重構誤差函式，和一般深度學習

無監督學習：Deep Generative Mode（深度生成模型）

speech nom like 當前多個 generator 問題 get pixel 一前言 1.1 Creation 據說在費曼死後，人們在他生前的黑板上拍到如圖畫片，在左上角有道：What i cannot create ,I do not understand.

[論文理解] Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features

Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features 簡介文章是2001年發表的，是一篇很經典的Object Detection的文章，而文章的亮點就在於使用了”Integral Image“計算Haar-like特徵，從而加

Rapid Object Detection using a Boosted Cascade of Simple Features

ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001 Rapid Object Detection using a Boosted Cascade of Simple F

超拉普拉斯先驗非盲去模糊--Fast Image Deconvolution using Hyper-Laplacian Priors

1. 基本知識 1.1 拉普拉斯分佈與超拉普拉斯分佈在概率論與統計學中，拉普拉斯分佈是以皮埃爾-西蒙•拉普拉斯的名字命名的一種連續概率分佈。由於它可以看作是兩個不同位置的指數分佈背靠背拼接在一起，所以它也叫作雙指數分佈。兩個相互獨立同概率分佈指數隨

Viola–Jones object detection framework--Rapid Object Detection using a Boosted Cascade of Simple Features中文翻譯及 matlab實現(見文末連結)

ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001 Rapid Object Detection using a Boosted Cascade of Simple Features 簡單特徵的優化級聯

LAPGAN：Deep Generative/Image Models using a Laplacian Pyramid of Adversarial Networks 使用拉普拉斯金字塔的GAN

摘要

1 引言

1.1 相關工作

2 方法

2.2 拉普拉斯金字塔

LAPGAN：Deep Generative/Image Models using a Laplacian Pyramid of Adversarial Networks 使用拉普拉斯金字塔的GAN

GANs學習系列(7)：拉普拉斯金字塔生成式對抗網路Laplacian Pyramid of Adversarial Networks

生成式對抗網路GAN研究進展（四）——Laplacian Pyramid of Adversarial Networks，LAPGAN

Local Laplacian Filters : Edge-Aware Image Processing with a Laplacian Pyramid

論文筆記：Tag-Aware Personalized Recommendation Using a Hybrid Deep Model

無監督學習：Deep Generative Mode（深度生成模型）

[論文理解] Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features

Rapid Object Detection using a Boosted Cascade of Simple Features

超拉普拉斯先驗非盲去模糊--Fast Image Deconvolution using Hyper-Laplacian Priors

Viola–Jones object detection framework--Rapid Object Detection using a Boosted Cascade of Simple Features中文翻譯及 matlab實現(見文末連結)

創建Maven Module時報錯：The parent project must have a packaging type of POM

《Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network》閱讀筆記

【文章閱讀】【超解像】--Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

【超解析度】Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

MYSQL報警：Warning: Using a password on the command line interface can be insecure.

MysqL5.7在使用mysqldump命令備份數據庫報錯：mysqldump: [Warning] Using a password on the command line interface can be insecure.

HYPERSPECTRAL IMAGE CLASSIFICATION USING TWOCHANNEL DEEP CONVOLUTIONAL NEURAL NETWORK閱讀筆記

Image Restoration Using Very Deep Convolutional Encoder-Decoder Networks with Sy

Mysql：備份提示Using a password on the command line interface

Faster Read: Learning a Deep Single Image Contrast Enhancer from Multi-Exposure Images

LAPGAN：Deep Generative/Image Models using a Laplacian Pyramid of Adversarial Networks 使用拉普拉斯金字塔的GAN

摘要

1 引言

1.1 相關工作

2 方法

2.2 拉普拉斯金字塔

相關推薦