譯：《Dropout: A Simple Way to Prevent Neural Networks from Overﬁtting》

阿新 • • 發佈：2018-12-31

今天看了CS231n關於dropout部分的講述，不是很清晰，拿來一篇關於Dropout的代表性文章來讀一讀，體會一下。

摘要

在具有大量引數的深度神經網路中，Overfitting是一個嚴重的問題。Dropout是解決這個問題的一種技巧。主要思想是在訓練期間從神經網路中隨機丟棄神經元（連同他們的連線）。在訓練期間，從指數的不同“thinned(稀疏)”網路中剔除樣本。在測試過程中，通過簡單地使用一個具有較小權重的未加密的網路來估計平均所有這些細化網路的預測的效果。這顯著地減少了過度擬合，並且比其他正則化方法有了重大的改進。我們表明，Dropout改善了視覺，語音識別，文件分類和計算生物學的監督學習任務的神經網路的效能，獲得了許多基準資料集的最新成果。

1.介紹

深度神經網路包含多個非線性隱藏層，這使得他們非常有表現力的模型，可以學習其輸入和輸出之間非常複雜的關係。然而，在有限的訓練資料的情況下，這些複雜的關係中的許多將是噪聲取樣的結果，因此即使從相同的分佈中抽取，它們也將存在於訓練集中而不是真實的測試資料中。這導致了過度配合，並已經開發了許多方法來減少它。這些措施包括：一旦驗證組的表現開始變差，就會停止訓練，對L1和L2正規化以及輕量級的分配[Nowlan and Hinton，1992]等各種型別的權重懲罰加以懲罰。

在無限的計算中，“正規化”固定大小模型的最佳方法是平均預測所有可能的引數設定，並根據給定訓練資料的後驗概率對每個設定進行加權。對於簡單的或者小的模型，這有時可以很好地近似[Xiong等，2011; Salakhutdinov和Mnih，2008]，但是我們希望用更少的計算來處理貝葉斯黃金標準的效能。我們建議通過對引數共享的指數數量的學習模型的預測進行近似的加權幾何均值來做到這一點。

模型組合幾乎總是提高機器學習方法的效能。然而，對於大型的神經網路來說，平均許多單獨訓練的網路輸出的顯而易見的想法是非常昂貴的。當各個模型彼此不同時，結合幾個模型是最有用的，為了使神經網路模型不同，他們應該有不同的體系結構或者受不同的資料訓練。訓練許多不同的體系結構是很困難的，因為為每個體系結構尋找最優的超引數是一項艱鉅的任務，訓練每個大型網路需要大量的計算。此外，大型網路通常需要大量的訓練資料，可能沒有足夠的資料在不同的資料子集上訓練不同的網路。即使一個人能夠訓練許多不同的大型網路，在測試時使用它們也是不可行的。

Dropout是解決這兩個問題的技術。它可以防止過度配置，並提供了一種有效結合指數級多種不同神經網路結構的方法。術語“Dropout”是指在神經網路中放棄單元（隱藏和可見）。通過丟棄一個單元，我們的意思是暫時將其從網路中刪除，以及所有的輸入和輸出連線，如圖1所示。選擇哪個單元是隨機的。在最簡單的情況下，每個單位都保持固定的概率p獨立於其他單位，其中p可以使用驗證集選擇或可以簡單地設定為0.5，這似乎是接近最佳的廣泛的網路和任務。然而，對於輸入單位來說，保留的最佳概率通常接近1而不是0.5。

對神經網路應用dropout相當於從中抽取一個“細化”的網路。細化的網路由所有脫落倖存的單位組成（圖1b）。具有n個單位的神經網路可以被看作是2的n次方個可能的細化神經網路的集合。這些網路共享權重，因此引數總數仍然是O（n的2次方）或更少。對於每個訓練案例的每一個演示，一個新的細化網路被抽樣和訓練。因此，訓練一個具有退出的神經網路可以被看作是訓練一個具有大量權重共享的2的n次方個細化網路的集合，如果有的話，每個細化的網路得到很少的訓練。

在測試時間，對指數級的許多細化模型的預測進行明確的平均是不可行的。然而，一個非常簡單的近似平均方法在實踐中效果很好。這個想法是在測試時使用單個神經網路，而不會丟失。這個網路的權重是訓練權重的縮小版本。如果一個單位在訓練期間以概率p被保留，則在測試時間該單位的輸出權重乘以p，如圖2所示。這確保了對於任何隱藏單位，預期輸出（在用於放棄訓練單位的分配下時間）與測試時的實際輸出相同。通過這樣的縮放，具有共享權重的2n個網路可以被組合成單個神經網路以在測試時間被使用。我們發現，訓練一個丟失的網路，並在測試時間使用這個近似的平均方法，與其他正則化方法相比，在廣泛的分類問題上導致顯著較低的泛化誤差。

dropout的想法不限於前饋神經網路。它可以更普遍地應用於玻爾茲曼機器等圖形模型。在本文中，我們引入了dropout的限制玻爾茲曼機模型，並將其與標準的限制玻爾茲曼機（RBM）進行比較。我們的實驗表明，在某些方面，輟學RBMs比標準RBMs更好。

此篇文章的結構如下。第2節描述了這個想法的動機。第3節介紹了以前的相關工作。第四部分正式描述了dropout模式。第5節給出了一個訓練dropout網路的演算法。在第六部分，我們提出我們的實驗結果，我們將丟失應用於不同領域的問題，並將其與其他形式的正規化和模型組合進行比較。 本文翻譯☞第六節，第7節分析了一個神經網路的不同屬性dropout的影響，並描述了dropout如何與網路的超引數相互作用。第8節介紹了“dropout RBM”模型。在第9節中，我們探討了邊緣化dropout的想法。在附錄A中，我們提供了一個訓練dropout網路的實用指南。這包括對訓練dropout網路時選擇超引數所涉及的實際考慮的詳細分析。

2. 動機

dropout的動機來自於性別在進化中作用的理論（Livnat et al。，2010）。有性繁殖包括取夫妻各自一半的基因，加入非常少量的隨機突變，並將它們組合起來產生一個後代。無性繁殖的選擇是建立一個父母的基因略有變異的後代。似乎合理的是，無性繁殖應該是一個更好的方法來優化個體適應性，因為一組好的基因已經合作到一起可以直接傳遞到後代。另一方面，有性生殖可能會破壞這些相互適應的基因組，特別是如果這些集合很大，並且直觀地，這會降低已經演變成複雜的複合體的生物體的適宜性。然而，有性繁殖是最先進的生物進化的方式。

對有性繁殖優越性的一個可能的解釋是，從長遠來看，自然選擇的標準可能不是個體的適應性，而是基因的混合能力。一組基因能夠與另一組隨機基因一起工作的能力使得它們更加健壯。由於一個基因不能依賴大量的合作伙伴來存在，所以它必須學會獨自做一些有用的事情，或者與少數其他基因合作。根據這一理論，有性生殖的作用不僅僅是讓有用的新基因在整個人群中傳播，還可以通過減少複雜的共同適應來促進這一過程，通過減少一個新基因來提高個體的適應性。類似地，神經網路中的每個隱含單元都要學習與其他單元隨機選擇的樣本一起工作。這應該使每個隱藏單位更加強大，並推動它自己創造有用的功能，而不依靠其他隱藏單位來糾正其錯誤。然而，一個圖層中的隱藏單元仍然會學習彼此做不同的事情。有人可能會設想，“通過製作每個隱藏單元的許多副本，網路將會變得強大，從而避免dropout”，但這是一個糟糕的解決方案，與通過複製程式碼去處理噪聲通道這一糟糕方法的原因完全相同。

進一步講，dropout這一想法的不同動機來源於思考的謀略。相比於50個人思考一個大的計謀，5個人思考10個計謀顯然是一個更好的選擇，前提這些人的智商都是一樣的。如果條件沒有改變，時間固定，一個大陰謀可以很好地工作；但是在非固定的條件下，陰謀越小，工作的機會就越大。一個複雜體的適應性在訓練集可能會表現得很好，但是在測試集上，就遠不如多個簡單體的適應性。【熟話說，三個臭皮匠賽過諸葛亮】

3. 相關工作

dropout可以被解釋為通過向其隱藏的單位增加噪音來調整神經網路的一種方式。在Vincent等人的去噪自動編碼器（DAE）的背景下以及先前已經使用將噪聲新增到單元狀態的想法。（2008,2010），噪聲被新增到自動編碼器的輸入單元，通過訓練來重建無噪聲輸入。我們的工作擴充套件了這個想法，通過顯示退出可以有效地應用在隱藏層，也可以被解釋為一種模型平均的形式。我們還表明，新增噪聲不僅有用於無監督的特徵學習，而且還可以擴充套件到監督學習問題。事實上，我們的方法可以應用於其他基於神經元的架構，例如玻爾茲曼機器。儘管5％的噪聲通常對DAE的效果最好，但是我們發現在測試時應用的權重縮放程式使我們能夠使用更高的噪聲水平。剔除20％的輸入單位和50％的隱藏單位往往被認為是最佳的。

4. 模型描述

本節介紹了dropout神經網路模型。考慮具有L個隱藏層的神經網路。設l∈{1，…，L}為網路的隱層提供索引。設z（l）表示輸入到第l層的向量，y（l）表示第1層（y（0）= x是輸入）的輸出向量。 W（1）和b（1）是第1層的權重和偏差。標準神經網路（圖3a）的前饋操作可以描述為（對於l∈{0，…，L-1}和任何隱含的單元i）
沒有進行dropout的計算公式：

公式中的f是啟用函式，例如，f是sigmoid函式， f(x) = 1/(1 + exp(−x)).
加上dropout之後的計算公式：

我們來看對公式的一種更為直觀的描述：

在dropout公式中，對於任何層l，r（l）是獨立的伯努利隨機變數的向量，其中每個隨機變數具有概率p為1.該向量被取樣並且與該層的輸出y（l）元素級地相乘以建立細化輸出y（l）。然後，已經細化的輸出被用作下一層的輸入。這個過程適用於每一層。這相當於從一個更大的網路中抽取一個子網路。為了學習，損失函式的導數通過子網路反向傳播。在應用測試集執行中，權重按照測試時的W（l） = pW（l）來縮放，如圖2所示。得到的神經網路沒有丟失。

5. 學習dropout網路

本節介紹一個訓練丟失神經網路的程式。

5.1 反向傳播

可以使用隨機梯度下降以類似於標準神經網路的方式來訓練dropout神經網路。唯一不同的是，對於小批量(mini-batch)的每個訓練案例，我們通過剔除隱藏單元來抽樣一個細化的網路。這個訓練案例的前向和後向傳播只在這個細化的網路上完成。在每個小批量的訓練案例中，對每個引數的梯度進行平均。任何不使用引數的訓練案例中相應的引數的梯度是0。許多方法已被用於改善隨機梯度下降，如動量，退火學習率（annealed learning rates ）和L2權重衰減。這些被發現對於dropout神經網路也是有用的。

正則化的一種特殊形式特別適用於dropout ，即限制每個隱藏單元的輸入加權向量的範數被固定的常數c所限制。換句話說，如果w表示對映到任何隱藏單元上的權重向量，則在約束|| w || 2≤c的情況下對神經網路進行優化。這個約束是在優化過程中通過將w投射到半徑為c的球的表面上而實現的。這也被稱為最大範數正則化，因為它意味著任何權重的規範可以採取的最大值是c。常數c是可調超引數，它是使用驗證集合確定的。最大規範正則化過去曾用於協作過濾（Srebro和Shraibman，2005）。它通常會提高深度神經網路的隨機梯度下降訓練的效能，即使在沒有使用dropout的情況下也是如此。

雖然只有dropout本身會有顯著性的改善，但是將dropout和最大規範正規化，大衰退的學習率和高動量結合起來比僅僅使用dropout的效果會顯著提升。一個可能的理由是，將權重向量限制在一個固定的半徑球內部，使用一個大的學習速率，不會有權重爆炸的可能性。 dropout提供的噪音使得優化過程可以探索權重空間中難以達到的不同區域。隨著學習速度的降低，優化步驟會縮短，從而減少了探索，最終達到最小化。

5.2 無監督的預訓練

自動編碼器（Vincent等人，2010）或深玻耳茲曼機器（Salakhutdinov和Hinton，2009）可以對神經網路進行預訓練。預訓練是利用未標記資料的一種有效方法。在反向傳播的情況下進行預訓練已經顯示，在某些情況下，隨機初始化可以顯著提高效能。

dropout可以應用於已經使用這些技術預訓練的網路。預訓練過程保持不變。預訓練所得的重量應按1 / p的比例放大。這確保了對於每個單元，隨機dropout期間的預期輸出將與預訓練期間的輸出相同。我們最初擔心的是，dropout的隨機性可能會抹去預訓練權重中的資訊。這種情況發生時，精細調整期間使用的學習率與隨機初始化網路的最佳學習率相當。然而，當學習率被選擇為較小時，預訓練權重的資訊似乎被保留了下來，並且在最終的泛化錯誤方面我們能夠得到改善，而不是在微調網路時使用dropout。

6. 實驗結果

我們在不同領域的資料集上訓練了dropout神經網路來分類問題。我們發現，與沒有使用dropout的神經網路相比，dropout改善了所有資料集的泛化效能。表1給出了資料集的簡要說明。資料集是:
• MNIST : 手寫數字的標準玩具資料集。
• TIMIT : 清晰的用於語音識別的標準語音基準集。
• CIFAR-10 and CIFAR-100 : 微小的自然影象 (Krizhevsky, 2009).
• Street View House Numbers data set (SVHN) : Google Street View收集的房屋號碼的影象 (Netzer et al., 2011).
• ImageNet : 大量的自然影象。
• Reuters-RCV1 : 路透社的新聞文章的資料集。
• Alternative Splicing data set: 用於預測替代基因剪接的RNA特徵(Xiong et al., 2011).
我們選擇了一組不同的資料集來證明dropout是一種改進神經網路的通用技術，並不是特定於任何特定的應用領域。在本節中，我們提出了一些顯示退出的有效性的關鍵結果。附錄B提供了所有實驗和資料集的更詳細的描述。

6.1 影象資料集的結果

我們使用五個影象資料集來評估丟失MNIST，SVHN，CIFAR-10，CIFAR-100和ImageNet。這些資料集包括不同的影象型別和訓練集大小。在所有這些資料集上獲得最新結果的模型都使用了dropout。

6.1.1 MNIST

MNIST資料集由28×28畫素的手寫數字影象組成。任務是將影象分類成10位數的類別。表2比較了dropout與其他技術的表現。對於不使用dropout或無監督預訓練的設定，表現最好的神經網路達到約1.60％的誤差（Simard等人，2003）。使用dropout，錯誤降低到1.35％。用ReLUs代替線性迴歸（Jarrett et al。，2009）進一步將誤差降低到1.25％。最大範數正則化再次降低到1.06％。增加網路的大小可以帶來更好的結果。每層2層8192個單位的神經網路誤差為0.95％。請注意，這個網路有超過6500萬個引數，正在接受一個大小為60,000的資料集的培訓。使用標準的正則化方法和早期停止訓練一個這樣大小的網路來給出良好的泛化誤差是非常困難的。另一方面，dropout，即使在這種情況下，也可以防止過擬合。它甚至不需要提前停止。 Goodfellow等人（2013年）顯示，通過用Maxout單位取代ReLU單位，結果可以進一步提高到0.94％。所有的丟失網路對於隱藏單位使用p = 0.5，對於輸入單位使用p = 0.8。附錄B.1中提供了更多的實驗細節。

用RBM和深玻爾茲曼機器疊加的dropout網路也給出了改進，如表2所示。DBM預先訓練的dropout網路實現了0.79％的測試誤差，這是有史以來就置換不變設定所報告的最佳效能。我們注意到，通過使用二維空間資訊和從標準訓練集中增加具有畸變版本影象的訓練集可以獲得更好的結果。我們在更有趣的資料集上展示了這個設定中的dropout的有效性。

為了測試dropout的魯棒性，分類實驗是用許多不同架構的網路來完成的，保持所有的超引數（包括p）固定。圖4顯示了隨著培訓的進展，這些不同架構的測試錯誤率。訓練有dropout和無dropout的相同體系結構具有顯著不同的測試誤差，如由兩個單獨的軌跡群所看到的那樣。在所有體系結構中，Dropout提供了巨大的改進，而不使用針對每個體系結構進行特定調整的超引數。

6.1.2 Street View House Numbers（SVHN）

街景房屋號碼（SVHN）資料集（Netzer et al。，2011）由谷歌街景收集的房屋號碼的彩色影象組成。圖5a顯示了這個資料集的影象的一些例子。我們在實驗中使用的資料集的一部分包括32×32彩色影象，大致集中在一個門牌號的數字上。任務是確定這個數字。

對於這個資料集，我們將Dropout應用於卷積神經網路（LeCun et al。，1989）。我們發現的最好的架構有三個卷積層，其次是兩個完全連線的隱藏層。所有隱藏的單位是ReLUs。每個卷積層之後是最大池化。附錄B.2更詳細地描述了架構。對於網路的不同層，保留隱藏單元的概率為p =（0.9,0.75,0.75,0.5,0.5,0.5）（從輸入到卷積層到完全連線層）。最大範數正則化被用於卷積和完全連線層的權重。表3比較了不同方法獲得的結果。我們發現卷積網路勝過其他方法。不使用丟失的效能最好的卷積網路實現了3.95％的錯誤率。僅向完全連線的圖層新增壓差將誤差降低到3.02％。為卷積層新增Dropout，進一步將錯誤降低到2.55％。通過使用maxout單元可以獲得更多的收益。

通過在卷積層中新增Dropout（3.02％至2.55％）獲得的效能的額外增益值得注意。有人可能認為，由於卷積層沒有很多引數，因此過度擬合不是問題，因此Dropout不會有太多的影響。然而，在較低層中的Dropout仍然有幫助，因為它為較高的全連線層提供了噪聲輸入，從而防止它們過擬合。

6.1.3 CIFAR-10 and CIFAR-100

CIFAR-10和CIFAR-100資料集由分別來自10個和100個類別的32×32個彩色影象組成。圖5b顯示了這個資料集的影象的一些例子。附錄B.3給出了資料集，輸入預處理，網路結構和其他實驗細節的詳細描述。表4顯示了通過這些資料集上的不同方法獲得的錯誤率。沒有任何資料增加，Snoek et al。（2012）使用貝葉斯超引數優化在CIFAR-10上獲得了14.98％的錯誤率。在完全連線的層中使用dropout將其降低到14.32％，並且在每層中增加dropout進一步將錯誤降低到12.61％。 Goodfellow等人（2013）表明，通過用Maxout單元替換ReLU單元，誤差進一步降低到11.68％。在CIFAR-100上，退出將誤差從43.48％降低到37.20％，這是一個巨大的改進。

6.1.4 ImageNet

ImageNet是一個超過1500萬標記的高解析度影象資料集，屬於大約22000個類別。從2010年開始，作為Pascal視覺物件挑戰賽的一部分，每年舉辦一次名為ImageNet大型視覺識別挑戰賽（ILSVRC）的比賽。在這個挑戰中使用了ImageNet的一個子集，1000個類別中大概有1000個影象。由於類別的數量相當大，因此通常報告兩個錯誤率：top-1和top-5，其中top-5的錯誤率是測試影象的分數，正確的標籤不是在五個標籤之間這個模型很可能被認為是可能的。圖6顯示了我們的模型在一些測試影象上做出的一些預測。
ILSVRC-2010是ILSVRC唯一可用的測試集標籤版本，所以我們大部分的實驗都是在這個資料集上進行的。表5比較了不同方法的效能。具有dropout的卷積網大大優於其他方法。 Krizhevsky等人詳細描述了架構和實現細節。（2012年）。

我們基於卷積網路和dropout的模型贏得了ILSVRC-2012的競賽。由於測試集的標籤不可用，因此我們將結果報告在最終提交的測試集上，幷包含我們模型的不同變體的驗證集結果。表6顯示了比賽的結果。雖然基於標準視覺特徵的最佳方法實現了大約26％的前5個錯誤率，但是具有dropout的卷積網路實現了大約16％的測試誤差，這是驚人的差異。圖6顯示了我們的模型預測的一些例子。我們可以看到，模型做出了非常合理的預測，即使最好的猜測是不正確的。

6.2 在TIMIT上的實驗結果

接下來，我們將dropout應用於語音識別任務。我們使用TIMIT資料集，該資料集由680位發言者的錄音組成，涵蓋了美國英語的8種主要方言，在受控制的無噪音環境下閱讀10個語音豐富的句子。在21個對數濾波器組的視窗上訓練dropout神經網路，以預測中心幀的標籤。附錄B.4描述了資料預處理和訓練細節。表7比較了dropout神經網路與其他模型。 6層網路的聲音出錯率為23.4％。 dropout率進一步提高到21.8％。我們還訓練了從訓練後體重開始的dropout網路。預先加入一疊RBM的4層網路的聲音出錯率為22.7％。dropout率降低到19.7％。同樣，對於一個8層網路，誤差從20.5％降到19.7％。

6.3 在文字資料集上的實驗結果

為了測試文字域中dropout的有用性，我們使用了dropout網路來訓練文件分類器。我們使用了Reuters-RCV1資料集的一個子集，收集了來自路透社的超過800,000篇newswire文章。這些文章涵蓋了各種主題。任務是拿一些文件的文字表示，並把它分成50個不相交的主題。附錄B.5更詳細地描述了設定。我們最好的沒有使用dropout的神經網路獲得了31.05％的錯誤率。新增dropout將錯誤降低到29.62％。我們發現，與視覺和語音資料集相比，這一改進要小得多。

6.4 與貝葉斯神經網路的比較

dropout可以被看作是對具有共享權重的指數級許多模型進行等權重平均的一種方式。另一方面，貝葉斯神經網路（Neal，1996）是在神經網路結構和引數空間上進行模型平均的正確方法。在dropout時，每個模型的權重是相等的，而在貝葉斯神經網路中，每個模型都要考慮到以前的模型以及模型如何處理資料，這是更正確的方法。貝葉斯神經網路對於解決資料稀缺的領域（如醫學診斷，遺傳學，藥物發現和其他計算生物學應用）中的問題非常有用。然而，貝葉斯神經網路訓練緩慢，難以擴充套件到非常大的網路規模。此外，在測試時間從許多大網路獲得預測是昂貴的。另一方面，dropout神經網路在測試時間訓練和使用要快得多。在本節中，我們報告將貝葉斯神經網路與dropout神經網路在貝葉斯神經網路已知效能良好並獲得最新結果的小資料集上進行比較的實驗。目的是分析貝葉斯神經網路與使用dropout神經網路的對比損失。

我們使用的資料集（Xiong et al。，2011）來自遺傳學領域。其任務是根據RNA特徵來預測選擇性剪接的發生。選擇性剪接是哺乳動物組織細胞多樣性的重要原因。預測在不同條件下某些組織中交替剪接的發生對於理解許多人類疾病是重要的。鑑於RNA特徵，任務是預測生物學家關心的三個剪接相關事件的概率。評估指標是程式碼質量，它是目標與預測概率分佈之間的負KL散度的量度（越高越好）。附錄B.6包括資料集和效能指標的詳細描述。

表8總結了這個資料集上不同模型的效能。Xiong等人（2011）使用貝葉斯神經網路來完成這項任務。正如預期的那樣，我們發現貝葉斯神經網路表現比dropout更好。然而，我們看到dropout顯著地改善了標準神經網路的效能，並且勝過了所有其他的方法。這個資料集的挑戰是防止過擬合，因為訓練集的規模很小。防止過擬合的一種方法是使用PCA降低輸入維數。此後，可以使用標準技術如SVM或邏輯迴歸。但是，在dropout的情況下，我們能夠防止過擬合，而不需要降低維度。與貝葉斯網路中的幾十個單元相比，dropout網路非常大（隱藏單元為1000個）。這表明dropout有很強的正規化效應。

6.4 與標準正則化的比較

已經提出了幾種正則化方法來防止神經網路中的過擬合。這些包括L2權重衰減（更一般的Tikhonov正則化（Tikhonov，1943））， lasso （Tibshirani，1996），KL-稀疏性和最大範數正則化。 dropout可以被看作是規範神經網路的另一種方式。在本節中，我們使用MNIST資料集比較了這些正則化方法中的一些丟失。

具有ReLU的相同網路體系結構（784-1024-1024-2048-10）使用具有不同正則化的隨機梯度下降進行訓練。表9顯示了結果。使用驗證集合獲得與每種正則化（衰減常數，目標稀疏性，dropout率，最大範數上限）相關的不同超引數的值。我們發現，dropout結合最大範數正則化給出了最低的泛化誤差。

譯：《Dropout: A Simple Way to Prevent Neural Networks from Overﬁtting》

摘要