吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization

阿新 • • 發佈：2018-12-25

dropout 正則化（Dropout Regularization）

除了L2正則化，還有一個非常實用的正則化方法——“Dropout（隨機失活）”，我們來看看它的工作原理。

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization
假設你在訓練上圖這樣的神經網路，它存在過擬合，這就是dropout所要處理的，我們複製這個神經網路，dropout會遍歷網路的每一層，並設定消除神經網路中節點的概率。假設網路中的每一層，每個節點都以拋硬幣的方式設定概率，每個節點得以保留和消除的概率都是0.5，設定完節點概率，我們會消除一些節點，然後刪除掉從該節點進出的連線，最後得到一個節點更少，規模更小的網路，然後用backprop方法進行訓練。

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization

這是網路節點精簡後的一個樣本，對於其它樣本，我們照舊以拋硬幣的方式設定概率，保留一類節點集合，刪除其它型別的節點集合。對於每個訓練樣本，我們都將採用一個精簡後神經網路來訓練它，這種方法似乎有點怪，單純遍歷節點，編碼也是隨機的，可它真的有效。不過可想而知，我們針對每個訓練樣本訓練規模極小的網路，最後你可能會認識到為什麼要正則化網路，因為我們在訓練極小的網路。

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization

如何實施dropout呢？

方法有幾種，接下來我要講的是最常用的方法，即inverted dropout（反向隨機失活），出於完整性考慮，我們用一個三層（l=3）網路來舉例說明。編碼中會有很多涉及到3的地方。我只舉例說明如何在某一層中實施dropout。

首先要定義向量d，d^([3])表示一個三層的dropout向量：

d3 = np.random.rand(a3.shape[0],a3.shape[1])

然後看它是否小於某數，我們稱之為keep-prob，keep-prob是一個具體數字，上個示例中它是0.5，而本例中它是0.8，它表示保留某個隱藏單元的概率，此處keep-prob等於0.8，它意味著消除任意一個隱藏單元的概率是0.2，它的作用就是生成隨機矩陣，如果對a^{([3])進行因子分解，效果也是一樣的。d}([3])是一個矩陣，每個樣本和每個隱藏單元，其中d^([3])中的對應值為1的概率都是0.8，對應為0的概率是0.2，隨機數字小於0.8。它等於1的概率是0.8，等於0的概率是0.2。

接下來要做的就是從第三層中獲取啟用函式，這裡我們叫它a^([3])，a([3])含有要計算的啟用函式，a^{([3])等於上面的a}([3])乘以d^([3])，a3 =np.multiply(a3,d3)，這裡是元素相乘，也可寫為a3*=d3，它的作用就是讓d^{([3])中所有等於0的元素（輸出），而各個元素等於0的概率只有20%，乘法運算最終把d}[3] 中相應元素輸出，即讓d^{([3])中0元素與a}([3])中相對元素歸零。

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization
如果用python實現該演算法的話，d^([3])則是一個布林型陣列，值為true和false，而不是1和0，乘法運算依然有效，python會把true和false翻譯為1和0，大家可以用python嘗試一下。

最後，我們向外擴充套件a^([3])，用它除以0.8，或者除以keep-prob引數。

a3/=keep-prob

下面我解釋一下為什麼要這麼做，為方便起見，我們假設第三隱藏層上有50個單元或50個神經元，在一維上a^([3])是50，我們通過因子分解將它拆分成50×m維的，保留和刪除它們的概率分別為80%和20%，這意味著最後被刪除或歸零的單元平均有10（50×20%=10）個，

現在我們看下z^([4])，z([4])=w^([4]) a^([3])+b([4])，我們的預期是，a^{([3])減少20%，也就是說a}([3])中有20%的元素被歸零，為了不影響z^{([4])的期望值，我們需要用w}([4]) a^{([3])/0.8，它將會修正或彌補我們所需的那20%，a}([3])的期望值不會變，劃線部分就是所謂的dropout方法。

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization
它的功能是，不論keep-prop的值是多少0.8，0.9甚至是1，如果keep-prop設定為1，那麼就不存在dropout，因為它會保留所有節點。反向隨機失活（inverted dropout）方法通過除以keep-prob，確保a^([3])的期望值不變。

事實證明，在測試階段，當我們評估一個神經網路時，也就是用綠線框標註的反向隨機失活方法，使測試階段變得更容易，因為它的資料擴充套件問題變少，我們將在下節課討論。

據我瞭解，目前實施dropout最常用的方法就是Inverted dropout，建議大家動手實踐一下。Dropout早期的迭代版本都沒有除以keep-prob，所以在測試階段，平均值會變得越來越複雜，不過那些版本已經不再使用了。

現在你使用的是d向量，你會發現，不同的訓練樣本，清除不同的隱藏單元也不同。實際上，如果你通過相同訓練集多次傳遞資料，每次訓練資料的梯度不同，則隨機對不同隱藏單元歸零，有時卻並非如此。比如，需要將相同隱藏單元歸零，第一次迭代梯度下降時，把一些隱藏單元歸零，第二次迭代梯度下降時，也就是第二次遍歷訓練集時，對不同型別的隱藏層單元歸零。向量d或d^([3])用來決定第三層中哪些單元歸零，無論用foreprop還是backprop，這裡我們只介紹了foreprob。

如何在測試階段訓練演算法，在測試階段，我們已經給出了x，或是想預測的變數，用的是標準計數法。我用a^([0])，第0層的啟用函式標註為測試樣本x，我們在測試階段不使用dropout函式，尤其是像下列情況：

z^([1])=w([1]) a^([0])+b([1])

a^([1])=g([1]) (z^([1]))

z^([2])= w^([2]) a^([1])+b([2])

a^([2])=⋯

以此類推直到最後一層，預測值為^y。

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization
顯然在測試階段，我們並未使用dropout，自然也就不用拋硬幣來決定失活概率，以及要消除哪些隱藏單元了，因為在測試階段進行預測時，我們不期望輸出結果是隨機的，如果測試階段應用dropout函式，預測會受到干擾。

理論上，你只需要多次執行預測處理過程，每一次，不同的隱藏單元會被隨機歸零，預測處理遍歷它們，但計算效率低，得出的結果也幾乎相同，與這個不同程式產生的結果極為相似。

Inverted dropout函式在除以keep-prob時可以記住上一步的操作，目的是確保即使在測試階段不執行dropout來調整數值範圍，啟用函式的預期結果也不會發生變化，所以沒必要在測試階段額外新增尺度引數，這與訓練階段不同。

l=keep-prob

為什麼dropout會起作用呢？

為什麼dropout會起作用呢？下一個筆記我們將更加直觀地瞭解dropout的具體功能。

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization

dropout 正則化（Dropout Regularization）

如何實施dropout呢？

為什麼dropout會起作用呢？

吳恩達深度學習筆記(31)-為什麼正則化可以防止過擬合

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization

吳恩達機器學習 - 邏輯迴歸的正則化吳恩達機器學習 - 邏輯迴歸的正則化

吳恩達機器學習（五）正則化（解決過擬合問題）

吳恩達深度學習筆記（deeplearning.ai）之循環神經網絡（RNN）（一）

吳恩達深度學習筆記（deeplearning.ai）之循環神經網絡（RNN）（二）

吳恩達深度學習筆記（deeplearning.ai）之循環神經網絡（RNN）（三）

吳恩達深度學習筆記 course2 week3 超參數調試,Batch Norm,和程序框架

吳恩達深度學習筆記（七） —— Batch Normalization

吳恩達深度學習筆記（八） —— ResNets殘差網絡

吳恩達深度學習筆記（3）-神經網路如何實現監督學習？

吳恩達深度學習筆記（4）-為什麼深度學習會興起？

吳恩達深度學習筆記(6)--邏輯迴歸(Logistic Regression)

吳恩達深度學習筆記（9）-導數的簡單推導介紹

吳恩達深度學習筆記（7）--邏輯迴歸的代價函式（Cost Function）

吳恩達深度學習筆記（8）-重點-梯度下降法（Gradient Descent）

吳恩達深度學習筆記(21)-神經網路的權重初始化為什麼要隨機初始化？

吳恩達深度學習筆記(15-21)總結-淺層神經網路總結

吳恩達深度學習筆記(22)-深層神經網路說明及前後向傳播實現

吳恩達深度學習筆記（deeplearning.ai）之卷積神經網路（CNN）（上）

吳恩達深度學習筆記(32)-Dropout正則化Dropout Regularization

dropout 正則化（Dropout Regularization）

如何實施dropout呢？

為什麼dropout會起作用呢？

相關推薦