【GAN ZOO閱讀系列】NONSUPERVISED REPRESENTATION LEARNING WITH DCGAN 使用深度卷積生成對抗網路的無監督的表示學習

阿新 • • 發佈：2018-12-11

Alec Radford & Luke Metz indico Research Boston, MA {alec,luke}@indico.io Soumith Chintala Facebook AI Research New York, NY [email protected] 引用請註明出處原文連結 https://arxiv.org/abs/1511.06434 參考翻譯 https://ask.julyedu.com/question/7681

摘要

近年來，使用了深度卷積神經網路（CNN）的監督學習在計算視覺的應用上發揮很大作用，然而CNN的無監督學習較少引人注意。這項工作中希望有助於縮小CNN在監督學習和無監督學習上已有成就的差距。作者提出了一種叫做深度卷積生成對抗網路（DCGAN）的CNN。它具有一定的結構約束，展示了一種在無監督學習方向上強有力的候選方案。通過在多種影象資料集上訓練，作者展示了令人信服的證據，深度卷積對抗網路從物件到場景，在生成模型和判別模型上，都能夠學習層次表示。此外，在一些的新的任務上使用學習到的特徵，表明它們一般的影象表示上有通用性。

1、引言

從大量未標記資料集中學習可複用的特徵表示已經成為一個研究熱點。使用大量未標記影象和視訊來學習良好的中間表示，然後應用到各種各樣的監督學習任務（如影象分類）中，在計算視覺領域是一件事半功倍的事情。一種影象表示的好方法是通過訓練生成對抗網路（GAN，Goodfellow et al., 2014）然後可以在監督學習任務中重複利用部分生成模型和判別模型作為特徵提取器。GAN提供了一種吸引人的極大似然方法的代替。此外一個值得討論的話題是，它們的學習過程，以及學習中啟發性的成本函式（例如，畫素的獨立均方誤差），這在表示學習中具有吸引人的前景。 GAN 是不穩定的，經常導致無意義的輸出。因此目前關於理解、視覺化GAN的學習過程，以及在多層 GAN 中間級表示方向上，只有很少發表的研究。

本文有以下幾個方面的貢獻：（1）提出並評估了卷積GAN的架構基礎上的一組約束，這些約束使得GAN在大多數設定中都能夠穩定地進行訓練，並將此架構命名為Deep Convolutional GAN（DCGAN）。（2）使用經過訓練的判別器進行影象分類任務，顯示出有競爭力的效能。（3）視覺化GAN學習的濾波器，並根據經驗顯示用於繪製特定物件的濾波器。（4）證明了生成器具有有趣的向量算術屬性，可以輕鬆操作生成的樣本的許多語義特性。

2、相關工作

2.1 無標籤資料的表示學習

無監督表示學習在通用的計算機視覺領域以及在影象的語境內是很好的研究問題。傳統的無監督表示學習方法就是在資料上聚類（比如K-means），提高聚類器在分類上的得分。在影象的應用場景下，人們通過可以對影象塊進行分層聚類（Coates & Ng,2012）去學習到強大的影象表示。另一類流行的方法是訓練自動編碼器（卷積地，Vincent et al.，2010），分離編碼中元件的內容和位置（Zhao et al…，2015），可以使影象緊湊編碼然後儘可能精確重建影象的階梯結構（Rasmus et al.,2015），這些方法也都在畫素上表現出了良好特徵表示的學習方法。另外深度置信網路（Lee et al., 2009）在學習層次表示上也表有很好的效果。

2.2 自然影象生成

影象生成模型的研究分為兩大類：引數和非引數方法。

非引數方法經常用於匹配已有資料庫中的影象，尤其是匹配影象塊，這方面已經用到了語境合成（Efros et al.,1999）、超解析度（Freeman et al., 2002）、影象修補（Hays & Efros，2007）。

引數影象生成方法已經得到了廣泛的探索（比如在MINIST手寫數字資料庫方面以及語境合成（Portilla & Simonceli,2000））。產生真實影象的方法並沒有取得多大的成功，直到最近，一系列取樣生成的方法取得了一系列進展（Kingma & Welling，2013），但取樣方法令人很痛苦的地方就是模糊。另一種生成影象的方法有使用迭代前向擴散過程（Sohl-Dickstein,2015）。生成對抗網路（Goodfellow et al.,2014）生成的影象有噪聲和難以理解的毛病。一種拉普拉斯金字塔擴充套件的方法（Denton et al.,2015）產生了較高質量的影象，但生成的影象仍然不穩定，因為連線多個模型時引進了噪聲。一種迴圈網路方法（Gregor et al.,2015）以及另外一種反捲積網路方法（Desovitskiyet al.,2014）最近在自然影象生成上也取得了一些成功。但是這些方法沒有推進生成模型在監督學習上的使用。

2.3 CNN內部的視覺化

使用神經網路一個不斷受到批判的問題就是它們是黑箱演算法，它的工作原理很少有人類能夠接受的解釋。在CNN的情況下，Zeiler等人（ Zeiler&Fergus,2014）發現通過使用反捲積和過濾最大啟用，能夠發現網路中每個卷積濾波器在神經網路中的大致作用。類似地，在輸入中使用梯度下降可以得到能夠啟用特定濾波器子集的理想影象（Mordvintsev et al.）。

3 方法與網路結構

使用CNN擴充套件GAN的歷史嘗試不怎麼成功，這激發了LAPGAN（拉普拉斯金字塔生成對抗網路）的作者（Denton et al.,2015）開發一種替代方法去迭代地上取樣低解析度生成影象，這使得影象的建模更穩定。作者在試圖使用CNN框架去擴充套件GAN時也遇到了困難。不過，在經過廣泛的模型探後，作者確認了一類能夠在一系列的資料集上得到穩定訓練的架構，這類架構允許訓練更高解析度和更深的生成模型。

作者採用的方法的核心是借鑑和修改了三個最近CNN框架的改進。

首先是全卷積網路（Springenberg et al.,2014），使用步幅卷積替代確定的空間池化函式（如max pooling），允許網路學習自己的空間下采樣的方法。作者在生成模型中使用了這種方法，允許它學習自己的空間上取樣和判別器。

其次是在最頂層的卷積後面去除全連線層。最有力的例子是全域性平均池化（Mordvintsev et al.）已經在影象分類上實現了state of the art的工作。全域性平均池化雖然增加了模型的穩定性，卻影響了收斂速度。這裡有一種折中的方法：將最高的卷積特徵分別連線到生成器的輸入和輸出層，判別器也可以很好的工作。GAN的第一層採用均勻噪聲分佈 $Z$ 作為輸入，它可以被稱為全連線（因為只是一個矩陣乘法），結果被重塑為一個4維的張量作為卷積層的開始。對於判別網路，最後的卷積層被平滑，並送入sigmoid輸出。如圖1是模型示意圖。 DCGANfig1 圖1： DCGAN用於LSUN場景，一個一百維的均值分佈 $Z$ 被投影到一個有很多特徵對映的小空間範圍卷積表示，四個微步幅卷積（一些最近的文章把它錯稱為反捲積）將這種高階表示轉換成64*64畫素的影象。需要注意的是，這裡沒有全連線和池化層。

第三是批量規範化（Batch Normalization）（Loffe & Szegedy,2015），通過將輸入的每個單元標準化為零均值與單位方差，來穩定學習的過程。這有助於處理初始化不良導致的訓練問題，另外還有助於梯度流向更深的網路。這證明取得深層生成器並開始學習是很緊要的，防止生成器從所有樣本坍縮到單個點。這是在GAN中常見的失敗模式。直接對所有的層採取歸一化會導致取樣的振盪和模型的不穩定。批量（batch）規範化生成器的輸出層與判別器的輸入層可避免這些問題。

ReLU 啟用函式（Nair & Hinton，2010）被使用在生成網路中（除了輸出層使用Tanh函式）。使用有界啟用可以讓模型更快學習達到飽和，並覆蓋訓練分佈的顏色空間。在判別器中，Leaky ReLU啟用函式（Maas 等人,2013）（Xu 等人,2015）能夠很好地工作，特別是對於高解析度的模型。這與使用maxout啟用的原始GAN論文相反（Goodfellow 等,2013）。

穩定DCGAN之結構指導（1）將任何的max-pooling層用步幅卷積（判別器）和微步幅卷積（生成器）替代。（2）在生成器和判別器中使用批量歸一化。（3）生成器在除了輸出層之外的其他所有層使用ReLU啟用函式，在輸出層使用Tanh啟用函式。（4）在判別器的所有層使用LeakyReLU啟用。

4 對抗訓練之細節

作者在三個資料集上訓練了 DCGAN，分別是 Large-scale Scene Understanding（LSUN）（Yu et al.,2015），Imagenet-1k和一個最近彙編的Faces dataset。每個資料集上的使用細節如下：

訓練影象除了縮放到tanh啟用函式的 $[-1,1]$ 範圍之外沒有經過其他的預處理。所有的模型都是通過小批量隨機梯度下降法進行訓練的，批的大小是128。所有權重初始化為均值為0和方差為0.02的正態分佈。在Leaky ReLU，所有模型的leak的斜率設定為0.2。之前的GAN是使用momentum加快訓練速度，DCGAN是使用Adam優化程式調整超引數。建議使用的學習率是0.001，如果這太高的話，使用0.0002代替。此外，momentum的 $\beta_1$ 在建議的0.9下訓練動盪且不穩定，但降低到0.5對模型的穩定有幫助。

4.1 LSUN

由於來自生成影象樣本視覺質量的增強，訓練樣本的記憶和過擬合也收到了越來越多的關注。為展示DCGAN模型適合更多的資料和更高的解析度，作者在具有略超過300萬個樣本的LSUN臥室資料集上訓練了模型。最近的分析正式了模型學習的快速性和泛化效能之間有直接的聯絡（Hatdt et al., 2015）。圖2展示了訓練一次的樣本，以及收斂後的樣本（圖3所示），作為展示DCGAN的模型不是通過簡單過擬合/記憶訓練樣本產生高質量的生成樣本。此外，影象沒有用到資料增強。 DCGANfig2 圖2： 訓練一次以後生成的臥室圖片。理論上，這個模型能夠學習去記憶訓練樣本，但這在實驗裡不像那樣，因為作者用小的學習率和小批量隨機梯度下降訓練模型。沒有先驗證據表明SGD和小的學習率具有記憶性。 DCGANfig3 圖3： 五次訓練後生成的臥室圖片。表明在多個樣本上在重複的噪聲紋理中進行視覺特徵提取，比如某些床的基板。

4.1.1 去除重複資料

為了進一步降低生成器記憶輸入樣本的可能性（圖2），作者執行簡單的影象去復過程。在32x32的下采樣中心擬合了一個3072-128-3072去噪drop-out正規化RELU自動編碼器。結果編碼層的啟用通過對ReLU取閾值的方式二值化，這被證明是一種有效的資訊儲存技術（Srivastava et al., 2014），並對提供了一種形式上很方便的語義雜湊，可以線上性時間內去重。雜湊碰撞的可視檢查顯示高精度，估計的假陽性率小於1%。該技術檢測到並刪除了大約275,000個近似重複項，表明召回率很高。

4.2 人臉資料

作者根據人名索引，隨機的從網頁圖片上抓取包含人臉的圖片。而人名的獲取是從dbpedia上的得到的，作為一個標準他們都是出生在現代的。這個資料集是10000個人的300萬張影象。在這些影象上執行一個OpenCV人臉檢測，保持有效的高解析度的檢測，得到了大約350000個人臉框圖。作者使用這些人臉框圖作為訓練資料。影象沒有用到資料增強。

4.3 IMAGENET-1K

使用 Imagenet-1k（Deng et al.,2009）作為非監督訓練中自然影象的來源。作者在32*32最小化中心取樣的樣本上訓練。影象沒有應用到資料增強。

5 DCGAN能力的經驗驗證

5.1 使用GAN作為特徵提取器分類CIFAR-10

評價一個非監督表示學習演算法質量的常見方法就是將它們用在無監督資料及上作為特徵提取器，然後評價這個線性模型在這些特徵的基礎上擬合的效能。

在CIFAR-10資料集上，利用 k-均值作為特徵學習演算法的單層特徵提取是一個很強的baseline。當使用非常大數量的特徵圖時（例如，4800），這個技術實現 80.6%的準確率。對這個baseline的一個無監督多層擴充套件可以達到82%的精度（Coates & Ng,2011）。為了評估DCGAN對於有監督任務表示學習的質量，本文在Imagenet-1k上訓練，然後使用來自判別網路所有層的卷積特徵，對每層進行max-pooling，產生一個 $4×4$ 的空間網格。這些特徵隨後被平滑和級聯，形成一個28672維的向量，然後用一個正則化線性L2-SVM訓練，實現了82.8%的準確率，效能超過了所有基於K均值的方法。

值得注意的，這個判別網路與K均值聚類相比，有較小的特徵圖（維數最高的層是512維），但由於許多層的 $4×4$ 空間max-pooling，特徵向量的維數反而更大。DCGAN的效能仍然比不上典型的CNN（Dosovitskiy et al., 2015），因為CNN可以在無監督的情況下訓練判別模型，以鑑別來自原始資料集的特定選擇的、積極增強的樣本。進一步的改善可以通過微調判別網路的表示實現，但作者把它留給了未來的工作。另外，由於DCGAN從來沒有在CIFAR-10上訓練，這個實驗也表明了學習到的特徵的魯棒性。 Alt text 表1： 基於預訓練模型的CIFAR分類結果與其他模型的對比。DCGAN沒有在CIFAR-10上預訓練，而是在Imagenet-1k上與訓練的，訓練得到的特徵用於分類CIFAR-10的影象。 #####5.2 使用GAN作為特徵提取器分類SVHN 在街景門牌號碼資料集（SVHN）（Netzer et al., 2011）上，為實現有監督的目標，當標籤資料稀缺時使用DCGAN的特徵判別器。這裡採用了與CIFAR-10相似的資料集制定規則，從非額外集分離出一個10000樣本的驗證集，並將其用於所有超參和模型選擇。隨機選擇1000類均勻分佈的訓練樣本並用於CIFAR-10相同的特徵提取，最後使用正則化線性L2-SVM訓練。這個達到最優的效果是22.48%的測試錯誤率，比用CNN設計的標註為標籤資料的方法（Zhao et al., 2015）有提升。此外，作者通過在相同的資料上單純的訓練監督的具有相同架構的CNN（通過在64個超引數上Random Search），驗證了CNN架構不是DCGAN對於模型效能最關鍵的貢獻（Bergstra & Bengio，2012)。它得到了顯著更高的28.87%的錯誤率。

在這裡插入圖片描述

表2：具有1000個標籤的SVHN分類

6 網路內部的探究與視覺化

作者調研了許多用來訓練生成模型和判別模型的方法。他們沒有在訓練集上做任何的最近鄰搜尋。畫素或特徵空間中的最近鄰很容易被小的影象變換所欺騙（Theis et al.,2015）。作者也沒有使用對數似然度量去量化地評估模型，因為這也是比較爛的度量方法（Theis et al.,2015）。（隱隱的感到作者的傲嬌臉。）

6.1 在隱空間中徜徉

作者做的第一個實驗是去理解隱變數的全景狀態。縱觀那些學習到的流形，我們通常可以看到那些被網路記住的標識（若存在大的變化），也可以看到那些在網路的記憶裡逐層坍縮的空間部分。如果在這個隱空間裡穿梭會導致影象生成之語義的變化（例如某些物體被新增或刪除），那麼就可以推理模型已經學會了相關且有趣的表示。實驗的結果被展示在圖4 中。在這裡插入圖片描述 圖4： 頂上幾行：對 $Z$ 中一系列9個隨機點的插值，表明學習到的空間變化是很平滑的，每一個影象看起來都想臥室。在第六行，一個沒窗的臥室逐漸變成有窗的臥室；在第十行，電視逐漸變成一個窗。

6.2 判別特徵之視覺化

之前的工作已經展示了CNN在大規模影象資料集上的的有監督訓練能夠學習到很強大的特徵（Zeiler & Fergus，2014）。另外，有監督的CNN在場景分類的目標檢測器上也被訓練過（Oquab et al.，2014）。作者證實了在大規模資料集上訓練的無監督的DCGAN也可以學習到層次的特徵，這很因吹斯汀。使用導向的反向傳播（Springenberg et al., 2014），作者在圖5 中展示了判別器在“臥室”這個目標上學習到的典型特徵，例如學習到了床和窗戶。作為對比，在同一個圖裡，作者給出了隨機初始化的在語義上相關（或者會讓分類器感興趣）的特徵作為baseline。在這裡插入圖片描述 圖5： 在右側，最大的座標軸對齊的引導反向傳播的視覺化，與來自判別器中最後一個卷積層的前6個學習卷積特徵相對應。要注意到，相當小的一部分特徵對應著床——LSUN臥室資料集的核心物體。在左邊是一個隨機的濾波器作為baseline。他們相對於之前的相應，幾乎沒有任何有區分性的或隨機性的結構。

6.3 對於生成表示的操作

6.3.1 忘記特定的物體

除了判別模型學到的表示外，一個問題就是生成模型學到了什麼特徵。樣本的質量說明生成模型學習的是特定的場景下的主要元件。例如，床、窗戶、檯燈、門和其他各種各樣的傢俱。為了探究這些特徵表示的形式，作者嘗試從生成模型中完全刪除“窗戶”這個物體。

在150個樣本中，對52個窗戶手動繪製了邊框。在第二個卷積層用對數機率迴歸擬合，用來去預測一個特徵啟用量是否在窗戶上。如果啟用量在繪製的邊框內部表示為正，相同影象中的隨機樣本表示為負。依據這個簡單的模型，將所有權重大於0的特徵（一共200）從空間位置上移除出去。然後，根據移除了窗戶的特徵圖隨機生成新的樣本。

生成的帶窗和不帶窗的圖如圖6 所示。有趣的是，網路大都忘記了臥室中的窗戶，卻用別的物體代替了窗戶。在這裡插入圖片描述 圖6： 上面一行是沒有被編輯掉窗戶的生成樣本，下面一行是使用被濾波掉了窗戶的生成器生成的樣本。對比兩行圖，一些窗戶被移除了，另外一些被變換成了類似門或者鏡子的其他物體（看起來好牽強）。即便視覺質量下降了，整體的場景組成還是相似的。這表明生成器在區分場景表示和物體表示上做了很好的工作。當然，你也可以做一些從生成器中移除其他物體的實驗。

6.3.2 在人臉樣本集上的向量算術

在評估詞彙學習表徵（Mikolov et al.,2013）的語境下，簡單算術運算揭示了特徵表示空間上豐富的線性結構。一個典型的例項是：向量(”King”)-向量(”Man”)+向量(”Woman”) 的計算結果，和Queen的向量是最接近的。作者在生成模型研究了 $Z$ 的表徵是否會出現相似的線性結構。作者在視覺概念典型樣本的 $Z$ 向量集上執行了類似的算術操作。僅在單樣本上進行實驗是不穩定的，但對於三個樣本的平均 $Z$ 向量的算術運算展現了一致且穩定的生成模型。除了圖7 顯示的物體操作，還在 $Z$ 空間展示了人臉姿態的線性建模，如圖8 所示。在這裡插入圖片描述 圖7： 視覺概念的向量運算。每一列的 $Z$ 向量被平均計算。然後對這些均值採用加減法的算術操作，生成一個新的向量 $Y$ ，右側中間的樣本是將 $Y$ 作為生成器的輸入得到的。為了讓生成器具有插值的能力，範圍為 $\pm 2.5$ 的均值噪聲被新增到了 $Y$ ，然後生成了八個其他的樣本。對輸入空間採用算術操作（最後兩個例子）會由於未校準而導致嘈雜的重疊。在這裡插入圖片描述圖8 從人臉從左向右看的四個平均樣本上生成了一個表示“轉頭”的向量。通過沿著這個軸插值可以改變人臉的姿態。

這些實驗表明，通過文中的模型使用學習得到的 $Z$ 特徵表示能夠開發因吹斯汀的應用。之前的工作已證明條件生成模型能夠高置信的學習物件的屬性模型，如：縮放、旋轉、位置（Dosovitskiy et al., 2014）。據作者所知，這是第一個純粹發生在無監督模型的展示。進一步探索和開發上述算術操作，可以極大減少複雜影象條件生成模型所需要的資料體量。

7 總結與未來的工作

作者在訓練生成對抗網路上提出了一套更穩定的架構，以及給出足夠的證據表明在監督學習和生成模型上對抗網路可以為影象學習到很好的特徵表示。但仍然存在一些形式的模型不穩定性：隨著模型訓練時間的增長，有時一些濾波器的子集會坍縮成單個震盪的模型。未來的工作需要去解決這種不確定性。認為將這個框架擴充套件到其他領域，如視訊（幀預測）和音訊（預訓練特徵的語音合成）應該是非常值得進一步研究的。進一步研究學習到的隱空間的特性也會很有意義。

致謝

作者感謝在這項工作中獲得的所有建議和指導，特別是Ian Goodfellow，Tobias Springenberg，Arthur Szlam和Durk Kingma。此外，要感謝所有的人提供的支援、資源和對話，尤其是研究團隊的另外兩名成員Dan Kuster和Nathan Lintz。最後，要感謝Nvidia捐贈了這項工作中使用的Titan-X GPU。

參考文獻

Bergstra, James and Bengio, Yoshua. Random search for hyper-parameter optimization. JMLR, 2012.

Coates, Adam and Ng, Andrew. Selecting receptive fields in deep networks. NIPS, 2011.

Coates, Adam and Ng, Andrew Y. Learning feature representations with k-means. In Neural Networks: Tricks of the Trade, pp. 561–580. Springer, 2012.

Deng, Jia, Dong, Wei, Socher, Richard, Li, Li-Jia, Li, Kai, and Fei-Fei, Li. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pp. 248–255. IEEE, 2009.

Denton, Emily, Chintala, Soumith, Szlam, Arthur, and Fergus, Rob. Deep generative image models using a laplacian pyramid of adversarial networks. arXiv preprint arXiv:1506.05751, 2015.

Dosovitskiy, Alexey, Springenberg, Jost Tobias, and Brox, Thomas. Learning to generate chairs with convolutional neural networks. arXiv preprint arXiv:1411.5928, 2014.

Dosovitskiy, Alexey, Fischer, Philipp, Springenberg, Jost Tobias, Riedmiller, Martin, and Brox, Thomas. Discriminative unsupervised feature learning with exemplar convolutional neural networks. In Pattern Analysis and Machine Intelligence, IEEE Transactions on, volume 99. IEEE, 2015.

Efros, Alexei, Leung, Thomas K, et al. Texture synthesis by non-parametric sampling. In Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference on, volume 2, pp. 1033–1038. IEEE, 1999.

Freeman, William T, Jones, Thouis R, and Pasztor, Egon C. Example-based super-resolution. Computer Graphics and Applications, IEEE, 22(2):56–65, 2002.

Goodfellow, Ian J, Warde-Farley, David, Mirza, Mehdi, Courville, Aaron, and Bengio, Yoshua. Maxout networks. arXiv preprint arXiv:1302.4389, 2013.

Goodfellow, Ian J., Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Courville, Aaron C., and Bengio, Yoshua. Generative adversarial nets. NIPS, 2014.

Gregor, Karol, Danihelka, Ivo, Graves, Alex, and Wierstra, Daan. Draw: A recurrent neural network for image generation. arXiv preprint arXiv:1502.04623, 2015.

Hardt, Moritz, Recht, Benjamin, and Singer, Yoram. Train faster, generalize better: Stability of stochastic gradient descent. arXiv preprint arXiv:1509.01240, 2015.

Hauberg, Sren, Freifeld, Oren, Larsen, Anders Boesen Lindbo, Fisher III, John W., and Hansen, Lars Kair. Dreaming more data: Class-dependent distributions over diffeomorphisms for learned data augmentation. arXiv preprint arXiv:1510.02795, 2015.

Hays, James and Efros, Alexei A. Scene completion using millions of photographs. ACM Transactions on Graphics (TOG), 26(3):4, 2007.

Ioffe, Sergey and Szegedy, Christian. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.

Kingma, Diederik P and Ba, Jimmy Lei. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

Kingma, Diederik P and Welling, Max. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.

Lee, Honglak, Grosse, Roger, Ranganath, Rajesh, and Ng, Andrew Y. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pp. 609–616. ACM, 2009.

Loosli, Gaëlle, Canu, Stéphane, and Bottou, Léon. Training invariant support vector machines using selective sampling. In Bottou, Léon, Chapelle, Olivier, DeCoste, Dennis, and Weston, Jason (eds.), Large Scale Kernel Machines, pp. 301–320. MIT Press, Cambridge, MA., 2007. URLhttp://leon.bottou.org/papers/loosli-canu-bottou-2006.

Maas, Andrew L, Hannun, Awni Y, and Ng, Andrew Y. Rectifier nonlinearities improve neural network acoustic models. In Proc. ICML, volume 30, 2013.

Mikolov, Tomas, Sutskever, Ilya, Chen, Kai, Corrado, Greg S, and Dean, Jeff. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pp. 3111–3119, 2013.

Nair, Vinod and Hinton, Geoffrey E. Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10), pp. 807–814, 2010.

Netzer, Yuval, Wang, Tao, Coates, Adam, Bissacco, Alessandro, Wu, Bo, and Ng, Andrew Y. Reading digits in natural images with unsupervised feature learning. In NIPS workshop on deep learning and unsupervised feature learning, volume 2011, pp. 5. Granada, Spain, 2011.

Oquab, M., Bottou, L., Laptev, I., and Sivic, J. Learning and transferring mid-level image representations using convolutional neural networks. In CVPR, 2014.

Portilla, Javier and Simoncelli, Eero P. A parametric texture model based on joint statistics of complex wavelet coefficients. International Journal of Computer Vision, 40(1):49–70, 2000.

Rasmus, Antti, Valpola, Harri, Honkala, Mikko, Berglund, Mathias, and Raiko, Tapani. Semisupervised learning with ladder network. arXiv preprint arXiv:1507.02672, 2015.

Sohl-Dickstein, Jascha, Weiss, Eric A, Maheswaranathan, Niru, and Ganguli, Surya. Deep unsupervised learning using nonequilibrium thermodynamics. arXiv preprint arXiv:1503.03585, 2015.

Springenberg, Jost Tobias, Dosovitskiy, Alexey, Brox, Thomas, and Riedmiller, Martin. Striving for simplicity: The all convolutional net. arXiv preprint arXiv:1412.6806, 2014.

Srivastava, Rupesh Kumar, Masci, Jonathan, Gomez, Faustino, and Schmidhuber, Jürgen. Understanding locally competitive networks. arXiv preprint arXiv:1410.1165, 2014.

Theis, L., van den Oord, A., and Bethge, M. A note on the evaluation of generative models. arXiv:1511.01844, Nov 2015. URL http://arxiv.org/abs/1511.01844.

Vincent, Pascal, Larochelle, Hugo, Lajoie, Isabelle, Bengio, Yoshua, and Manzagol, Pierre-Antoine. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. The Journal of Machine Learning Research, 11:3371–3408, 2010.

Xu, Bing, Wang, Naiyan, Chen, Tianqi, and Li, Mu. Empirical evaluation of rectified activations in convolutional network. arXiv preprint arXiv:1505.00853, 2015.

Yu, Fisher, Zhang, Yinda, Song, Shuran, Seff, Ari, andXiao, Jianxiong. Constructionofalarge-scale image dataset using deep learning with humans in the loop. arXiv preprint arXiv:1506.03365, 2015.

Zeiler, Matthew D and Fergus, Rob. Visualizing and understanding convolutional networks. In Computer Vision–ECCV 2014, pp. 818–833. Springer, 2014.

Zhao, Junbo, Mathieu, Michael, Goroshin, Ross, and Lecun, Yann. Stacked what-where autoencoders. arXiv preprint arXiv:1506.02351, 2015.