[Deep Learning] 深度學習中消失的梯度

阿新 • • 發佈：2019-01-13

　　好久沒有更新blog了，最近抽時間看了Nielsen的《Neural Networks and Deep Learning》感覺小有收穫，分享給大家。

　　瞭解深度學習的同學可能知道，目前深度學習面臨的一個問題就是在網路訓練的過程中存在梯度消失問題（vanishing gradient problem），或者更廣義地來講就是不穩定梯度問題。那麼到底什麼是梯度消失呢？這個問題又是如何導致的呢？這就是本文要分享的內容。

1. 消失的梯度

　　首先，我們將一個網路在初始化之後在訓練初期的結果視覺化如下：

　　在上圖中，神經元上的條可以理解為神經元的學習速率。這個網路是經過隨機初始化的，但是從上圖不難發現，第二層神經元上的條都要大於第一層對應神經元上的條，即第二層神經元的學習速率大於第一層神經元學習速率。那這可不可能是個巧合呢？其實不是的，在書中，Nielsen通過實驗說明這種現象是普遍存在的。

　　我們再來看下對於一個具有四個隱層的神經網路，各隱藏層的學習速率曲線如下：

　　可以看出，第一層的學習速度和最後一層要差兩個數量級，也就是比第四層慢了100倍。實際上，這個問題是可以避免的，儘管替代方法並不是那麼有效，同樣會產生問題——在前面的層中的梯度會變得非常大！這也叫做激增的梯度問題（exploding gradient problem），這也沒有比消失的梯度問題更好處理。更加一般地說，在深度神經網路中的梯度是不穩定的，在前面的層中或會消失，或會激增，這種不穩定性才是深度神經網路中基於梯度學習的根本原因。

2. 什麼導致了梯度消失？

　　為了弄清楚為何會出現消失的梯度，來看看一個極簡單的深度神經網路：每一層都只有一個單一的神經元。下面就是有三層隱藏層的神經網路：

　　我們把梯度的整個表示式寫出來：

$\dfrac{\partial{C}}{\partial{b_{1}}}=\sigma^{\prime}(z_{1})\omega_{2}\sigma^{\prime}(z_{2})\omega_{3}\sigma^{\prime}(z_{3})\omega_{4}\sigma^{\prime}(z_{4})\dfrac{\partial{C}}{\partial{a_{4}}}$

　　為了理解每個項的行為，先看下sigmoid函式導數的曲線：

　　該導數在$\sigma^{\prime}(0)=\dfrac{1}{4}$時達到最高。現在，如果我們使用標準方法來初始化網路中的權重，那麼會使用一個均值為0標準差為1的高斯分佈。因此所有的權重通常會滿足$|\omega_{j}|<1$。有了這些資訊，我們發現會有$\omega_{j}\sigma^{\prime(z_{j})}<\dfrac{1}{4}$，並且在進行所有這些項的乘積時，最終結果肯定會指數級下降：項越多，乘積的下降也就越快。

　　下面我們從公式上比較一下第三層和第一層神經元的學習速率：

比較一下$\dfrac{\partial{C}}{\partial{b_{1}}}$和$\dfrac{\partial{C}}{\partial{b_{3}}}$可知，$\dfrac{\partial{C}}{\partial{b_{1}}}$要遠遠小於$\dfrac{\partial{C}}{\partial{b_{3}}}$。 因此，梯度消失的本質原因是：$\omega_{j}\sigma^{\prime}(z_{j})<\dfrac{1}{4}$的約束。

3. 梯度激增問題

舉個例子說明下：

首先，我們將網路的權重設定得很大，比如$\omega_1=\omega_2=\omega_3=\omega_4=100$。然後，我們選擇偏置使得$\sigma^{'}(z_{j})$項不會太小。這是很容易實現的：方法就是選擇偏置來保證每個神經元的帶權輸入是$z_j=0$（這樣$\sigma^{'}(z_{j})=\dfrac{1}{4}$）。比如說，我們希望$z_1=\omega_1*a_0+b_1$，我們只需要把$b_1=-100*a_0$即可。我們使用相同的方法來獲取其他的偏置。這樣我們可以發現所有的項$w_j*\sigma^{'}(z_j)$都等於100*1/4=25。最終，我們獲得了激增的梯度。

4. 不穩定的梯度問題

　　不穩定的梯度問題：根本的問題其實並非是消失的梯度問題或者激增的梯度問題，而是在前面的層上的梯度是來自後面的層上項的乘積。當存在過多的層次時，就出現了內在本質上的不穩定場景。唯一讓所有層都接近相同的學習速度的方式是所有這些項的乘積都能得到一種平衡。如果沒有某種機制或者更加本質的保證來達成平衡，那網路就很容易不穩定了。簡而言之，真實的問題就是神經網路受限於不穩定梯度的問題。所以，如果我們使用標準的基於梯度的學習演算法，在網路中的不同層會出現按照不同學習速度學習的情況。

5. 參考文獻

　　1. Michael Nielsen,《Neural Networks and Deep Learning》

[Deep Learning] 深度學習中消失的梯度

1. 消失的梯度

2. 什麼導致了梯度消失？

3. 梯度激增問題

4. 不穩定的梯度問題

5. 參考文獻

[Deep Learning] 深度學習中消失的梯度

深度學習 deep learning 深度學習框架 caffe 深入學習過程

深度學習中的梯度下降優化演算法綜述

Deep learning深度學習的十大開源框架

讀論文：deep Learning 深度學習合集

AWS deep learning 深度學習_亞馬遜深度學習服務

Deep Learning(深度學習)程式碼/課程/學習資料整理

卷積在深度學習中的作用（轉自http://timdettmers.com/2015/03/26/convolution-deep-learning/）

《deep learning》學習筆記（8）——深度模型中的優化

深度學習中的啟用函式Sigmoid和ReLu啟用函式和梯度消失問題。

深度學習中的池化詳解 | Pooling in Deep learning

自問自答2——深度學習中梯度消失/爆炸為什麼是一個問題？(待完善）

【Deep Learning讀書筆記】深度學習中的概率論

機器學習中的梯度消失、爆炸原因及其解決方法(筆記1)

機器學習 Machine Learning 深度學習 Deep Learning 資料

機器學習 Machine Learning 深度學習 Deep Learning 資料 Chapter 1

入門|詳解機器學習中的梯度消失、爆炸原因及其解決方法

Deep learning發展歷程中的監督學習和非監督學習

Stanford機器學習課程(Andrew Ng) Week 1 Parameter Learning --- 線性迴歸中的梯度下降法

深度學習中的三種梯度下降方式：批量（batch），隨機（stochastic），小批量（mini-batch）

[Deep Learning] 深度學習中消失的梯度

1. 消失的梯度

2. 什麼導致了梯度消失？

3. 梯度激增問題

4. 不穩定的梯度問題

5. 參考文獻

相關推薦