機器學習：梯度消失（vanishing gradient）與梯度爆炸（exploding gradient）問題

阿新 • • 發佈：2018-11-14

1）梯度不穩定問題：

什麼是梯度不穩定問題：深度神經網路中的梯度不穩定性，前面層中的梯度或會消失，或會爆炸。

原因：前面層上的梯度是來自於後面層上梯度的乘乘積。當存在過多的層次時，就出現了內在本質上的不穩定場景，如梯度消失和梯度爆炸。

（2）梯度消失（vanishing gradient problem）：

原因：例如三個隱層、單神經元網路：

則可以得到：

然而，sigmoid方程的導數曲線為：

可以看到，sigmoid導數的最大值為1/4，通常abs（w）<1,則：

前面的層比後面的層梯度變化更小，故變化更慢，從而引起了梯度消失問題。

（3）梯度爆炸（exploding gradient problem）：

當權值過大，前面層比後面層梯度變化更快，會引起梯度爆炸問題。

（4）sigmoid時，消失和爆炸哪個更易發生？

量化分析梯度爆炸出現時a的樹枝範圍：因為sigmoid導數最大為1/4，故只有當abs(w)>4時才可能出現

由此計算出a的數值變化範圍很小，僅僅在此窄範圍內會出現梯度爆炸問題。而最普遍發生的是梯度消失問題。

（5）如何解決梯度消失和梯度爆炸？

使用ReLU,maxout等替代sigmoid。（具體細節請看博主之前神經網路啟用函式部分）

區別：（1）sigmoid函式值在[0,1],ReLU函式值在[0,+無窮]，所以sigmoid函式可以描述概率，ReLU適合用來描述實數；（2）sigmoid函式的梯度隨著x的增大或減小和消失，而ReLU不會。

正因為有了這單側抑制，才使得神經網路中的神經元也具有了稀疏啟用性。尤其體現在深度神經網路模型(如CNN)中，當模型增加N層之後，理論上ReLU神經元的啟用率將降低2的N次方倍。這裡或許有童鞋會問：ReLU的函式影象為什麼一定要長這樣？反過來，或者朝下延伸行不行？其實還不一定要長這樣。只要能起到單側抑制的作用，無論是鏡面翻轉還是180度翻轉，最終神經元的輸出也只是相當於加上了一個常數項係數，並不影響模型的訓練結果。之所以這樣定，或許是為了契合生物學角度，便於我們理解吧。
那麼問題來了：這種稀疏性有何作用？換句話說，我們為什麼需要讓神經元稀疏？不妨舉栗子來說明。當看名偵探柯南的時候，我們可以根據故事情節進行思考和推理，這時用到的是我們的大腦左半球；而當看蒙面唱將時，我們可以跟著歌手一起哼唱，這時用到的則是我們的右半球。左半球側重理性思維，而右半球側重感性思維。也就是說，當我們在進行運算或者欣賞時，都會有一部分神經元處於啟用或是抑制狀態，可以說是各司其職。再比如，生病了去醫院看病，檢查報告裡面上百項指標，但跟病情相關的通常只有那麼幾個。與之類似，當訓練一個深度分類模型的時候，和目標相關的特徵往往也就那麼幾個，因此通過ReLU實現稀疏後的模型能夠更好地挖掘相關特徵，擬合訓練資料。

此外，相比於其它啟用函式來說，ReLU有以下優勢：對於線性函式而言，ReLU的表達能力更強，尤其體現在深度網路中；而對於非線性函式而言，ReLU由於非負區間的梯度為常數，因此不存在梯度消失問題(Vanishing Gradient Problem)，使得模型的收斂速度維持在一個穩定狀態。這裡稍微描述一下什麼是梯度消失問題：當梯度小於1時，預測值與真實值之間的誤差每傳播一層會衰減一次，如果在深層模型中使用sigmoid作為啟用函式，這種現象尤為明顯，將導致模型收斂停滯不前。

機器學習：梯度消失（vanishing gradient）與梯度爆炸（exploding gradient）問題

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

斯坦福大學公開課機器學習：machine learning system design | trading off precision and recall（F score公式的提出：學習算法中如何平衡（取舍）查準率和召回率的數值）

機器學習：決策樹cart演算法在分類與迴歸的應用（上）

機器學習：神經網路-多層前饋神經網路淺析（附程式碼實現）

機器學習：梯度消失（vanishing gradient）與梯度爆炸（exploding gradient）問題

機器學習總結（九）：梯度消失（vanishing gradient）與梯度爆炸（exploding gradient）問題

機器學習與高數：梯度（Gradient）與梯度下降法（Gradient Descent）

機器學習：線性回歸——理論與代碼實現（基於正規方程與梯度下降）

機器學習：梯度下降gradient descent

從零單排入門機器學習：線性回歸（linear regression）實踐篇

斯坦福大學公開課機器學習：Neural Networks，representation: non-linear hypotheses（為什麽需要做非線性分類器）

斯坦福大學公開課機器學習：Neural network-model representation（神經網絡模型及神經單元的理解）

斯坦福大學公開課機器學習： advice for applying machine learning - evaluatin a phpothesis（怎麽評估學習算法得到的假設以及如何防止過擬合或欠擬合）

斯坦福大學公開課機器學習：advice for applying machine learning | learning curves （改進學習算法：高偏差和高方差與學習曲線的關系）

斯坦福大學公開課機器學習： advice for applying machine learning | deciding what to try next(revisited)（針對高偏差、高方差問題的解決方法以及隱藏層數的選擇）

斯坦福大學公開課機器學習：machine learning system design | data for machine learning（數據量很大時，學習算法表現比較好的原理）

機器學習：PCA（高維數據映射為低維數據封裝&調用）

機器學習：PCA（實例：MNIST數據集）

機器學習：模型泛化（L1、L2 和彈性網絡）

機器學習：邏輯回歸（損失函數）

機器學習：梯度消失（vanishing gradient）與梯度爆炸（exploding gradient）問題

相關推薦