RNN梯度消失和爆炸

阿新 • • 發佈：2019-01-17

原文：連結

建議先看第一個

一，經典的RNN結構如下圖所示：

假設我們的時間序列只有三段， $S_{0}$ 為給定值，神經元沒有啟用函式，則RNN最簡單的前向傳播過程如下：

$S_{1}=W_{x}X_{1}+W_{s}S_{0}+b_{1}$ $O_{1}=W_{o}S_{1}+b_{2}$

$S_{2}=W_{x}X_{2}+W_{s}S_{1}+b_{1}$ $O_{2}=W_{o}S_{2}+b_{2}$

$S_{3}=W_{x}X_{3}+W_{s}S_{2}+b_{1}$ $O_{3}=W_{o}S_{3}+b_{2}$

假設在t=3時刻，損失函式為 $L_{3}=\frac{1}{2}(Y_{3}-O_{3})^{2}$ 。

則對於一次訓練任務的損失函式為 $L=\sum_{t=0}^{T}{L_{t}}$ ，即每一時刻損失值的累加。

使用隨機梯度下降法訓練RNN其實就是對 $W_{x}$ 、 $W_{s}$ 、 $W_{o}$ 以及 $b_{1}$ $b_{2}$ 求偏導，並不斷調整它們以使L儘可能達到最小的過程。

二，現在假設我們我們的時間序列只有三段，t1，t2，t3。

我們只對t3時刻的 $W_{x}、W_{s}、W_{0}$ 求偏導（其他時刻類似）：

$\frac{\partial{L_{3}}}{\partial{W_{0}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{W_{o}}}$

$\frac{\partial{L_{3}}}{\partial{W_{x}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{W_{x}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{W_{x}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{S_{1}}}\frac{\partial{S_{1}}}{\partial{W_{x}}}$

$\frac{\partial{L_{3}}}{\partial{W_{s}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{W_{s}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{W_{s}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{S_{1}}}\frac{\partial{S_{1}}}{\partial{W_{s}}}$

可以看出對於 $W_{0}$ 求偏導並沒有長期依賴，但是對於 $W_{x}、W_{s}$ 求偏導，會隨著時間序列產生長期依賴。因為 $S_{t}$

隨著時間序列向前傳播，而 $S_{t}$ 又是 $W_{x}、W_{s}$ 的函式。

根據上述求偏導的過程，我們可以得出任意時刻對 $W_{x}、W_{s}$ 求偏導的公式：

$\frac{\partial{L_{t}}}{\partial{W_{x}}}=\sum_{k=0}^{t}{\frac{\partial{L_{t}}}{\partial{O_{t}}}\frac{\partial{O_{t}}}{\partial{S_{t}}}}(\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}})\frac{\partial{S_{k}}}{\partial{W_{x}}}$

（覺得k應該從k=1開始）

任意時刻對 $W_{s}$ 求偏導的公式同上。

三，如果加上啟用函式， $S_{j}=tanh(W_{x}X_{j}+W_{s}S_{j-1}+b_{1})$ ，

其中tanh' = [0,1]

這裡的 $tanh^{'} = (tanh(...))^'$ ，其中

啟用函式tanh和它的導數影象如下。

1）由上圖可以看出 $tanh'\in [0,1]$ ，對於訓練過程大部分情況下tanh的導數是小於1的，只有當 $W_{x}X_{j}+W_{s}S_{j-1}+b_{1}=0$ ，此時導數等於1；

2）如果 $W_{s}$ 也是一個大於0小於1的值，則當t很大時,使得tanh' * W_s < 1

$\prod_{j=k+1}^{t}{tanh^{'}}W_{s}$

就會趨近於0，和 (0.9*0.8)^50趨近與0是一個道理。

3）同理當 $W_{s}$ 很大時，具體指（比如tanh' = 0.1，而 $W_s$

=99，則相乘為9.9），使得tanh' * W_s > 1

$\prod_{j=k+1}^{t}{tanh^{'}}W_{s}$

就會趨近於無窮，這就是RNN中梯度消失和爆炸的原因。

至於怎麼避免這種現象，讓我在看看 $\frac{\partial{L_{t}}}{\partial{W_{x}}}=\sum_{k=0}^{t}{\frac{\partial{L_{t}}}{\partial{O_{t}}}\frac{\partial{O_{t}}}{\partial{S_{t}}}}(\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}})\frac{\partial{S_{k}}}{\partial{W_{x}}}$ 梯度消失和爆炸的根本原因就是 $\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}}$ 這一坨，要消除這種情況就需要把這一坨在求偏導的過程中去掉，至於怎麼去掉，一種辦法就是使 ${\frac{\partial{S_{j}}}{\partial{S_{j-1}}}}\approx1$ 另一種辦法就是使 ${\frac{\partial{S_{j}}}{\partial{S_{j-1}}}}\approx0$ 。其實這就是LSTM做的事情，至於細節問題我在LSTM如何解決梯度消失問題這篇文章中給出了介紹。

總結：

梯度消失：一句話，RNN梯度消失是因為啟用函式tanh函式的倒數在0到1之間，反向傳播時更新前面時刻的引數時，當引數W初始化為小於1的數，則多個(tanh函式’ * W)相乘，將導致求得的偏導極小（小於1的數連乘），從而導致梯度消失。

梯度爆炸：當引數初始化為足夠大，使得tanh函式的倒數乘以W大於1，則將導致偏導極大（大於1的數連乘），從而導致梯度爆炸。

RNN梯度消失和爆炸

總結：

RNN梯度消失和爆炸

RNN中梯度消失和爆炸的問題公式推導

RNN 梯度消失和梯度爆炸

LSTM解決梯度消失和爆炸情況

RNN神經網路產生梯度消失和梯度爆炸的原因及解決方案

對於梯度消失和梯度爆炸的理解

梯度消失和梯度爆炸問題詳解

梯度消失和梯度爆炸

神經網路梯度消失和梯度爆炸及解決辦法

深度學習：梯度消失和梯度爆炸

機器學習總結（二）：梯度消失和梯度爆炸

深度神經網路為何很難訓練（包含梯度消失和梯度爆炸等）

梯度消失和梯度爆炸情況詳解

梯度消失和梯度爆炸的原因和解決方案

梯度消失和梯度爆炸的解答

深度神經網路-消失的梯度問題和爆炸的梯度問題

梯度消失和梯度爆炸及解決方案

機器學習中的梯度消失、爆炸原因及其解決方法(筆記1)

梯度消失、爆炸原因及其解決方法

深度學習 --- 優化入門三（梯度消失和啟用函式ReLU）

RNN梯度消失和爆炸

總結：

相關推薦