深度學習-*-RNN正向及反向傳播

RNN簡介

RNN（迴圈神經網路）是深度神經網路中，應用最廣泛的兩種神經網路架構之一。並且，作為一種時序結構的神經網路，RNN經常用於時序相關的問題中，且在NLP中應用廣泛。還有一種RNN稱為遞迴神經網路，雖然名字類似，但是卻是不一樣的架構。

RNN圖示

RNN結構圖
$x_t$ 是輸入層資料， $s$

t s_t

s_{t}

是隱含層資料，

o_t

是輸出層資料，我們令：每一個

y_t

是t時刻對應的真實輸出，

y^{hat}_t

是對

o_t

進行softmax計算之後得到的估計值。

U

是輸入層到隱含層的權重，

W

是上一時刻隱含層到當前時刻隱含層的權重，

V

是隱含層到輸出層的權重。

正向傳播

由上圖易知： $a_t=b+W*s_{t-1}+U*x_t$ $s_t=tanh(a_t)$ $o_t=c+U*s_t$ $y^{hat}_t=softmax(o_t)$
我們假設t時候的損失函式為 $L^t$ (一般為交叉熵損失/負對數似然)，則一次正向傳播的損失 $L=\sum_tL^t$

反向傳播

反向傳播中，還是使用鏈式推導方法，與傳統的神經網路推導類似。但不一樣的地方在於隱含層受到了前一時刻隱含層的影響，故 $t$ 時刻隱含層 $s_t$ 的誤差傳播源來自於 $o_t$ 與 $s_{t+1}$ 兩個方向。這裡推導我是參考了很多部落格文章，但是一直都沒理解。後來看了文獻1，多少有點明白的意思。有幸各位大牛們看了這篇文章，請指點。
我們首先看誤差對 $o_t$ 的影響 $\nabla o_tL=\frac{\partial L}{\partial o_t}=\frac{\partial L^t}{\partial o_t}=y_t*y^{hat}_t-I_{i=j}*y_t$ 其中i是當前資料所屬真實類別索引，j為所有類別的索引分量。當i=j時， $I_{i=j}$ 是1，否則是0，參考了文獻2。
假設總時刻長度為 $t=\tau$ , $\nabla s_tL = V^T*\nabla o_tL，t=\tau$ $\nabla s_tL=(\frac{\partial s_{t+1}L}{\partial s_tL})*\nabla s_{t+1}L + (\frac{\partial o_{t}L}{\partial s_tL})*\nabla o_{t}L，t<\tau$
也就是說最後一個節點的隱含層誤差只來源於他的輸出層。其餘各層除了本身輸出層外，還會有上一層的誤差來源。通過鏈式求導有
$\nabla s_tL=W^T*s_{t+1}L*diag(1-s_{t+1}^2)+V^T*\nabla o_tL，t<\tau，diag是對角線矩陣$

深度學習-*-RNN正向及反向傳播

RNN簡介

RNN圖示

正向傳播

反向傳播

深度學習-*-RNN正向及反向傳播

神經網路和深度學習（三）—— 反向傳播工作原理

深度學習基礎2（反向傳播演算法）

深度學習（一）--反向傳播演算法

機器學習/深度學習問題總結及解答

吳恩達機器學習 - 神經網路的反向傳播演算法吳恩達機器學習 - 神經網路的反向傳播演算法

deeplearning.ai-正向和反向傳播演算法公式

深度學習-RNN注意力模型

各類識別、深度學習開原始碼及文獻梳理

FPGA實現深度學習的優勢及缺點

深度學習RNN實現股票預測實戰（附資料、程式碼）

基於Theano的深度學習框架keras及配合SVM訓練模型

softmax + cross-entropy交叉熵損失函式詳解及反向傳播中的梯度求導

Python和PyTorch對比實現多標籤softmax + cross-entropy交叉熵損失及反向傳播

AIQ - deeplearning.ai 全套吳恩達老師的深度學習課程筆記及資源線上閱讀

提升深度學習模型效能及網路調參

深度學習視覺化及熱力圖資料

基於Theano的深度學習框架keras及配合SVM訓練模型 (非常好的思路：DL+DM)

2017深度學習最新報告及8大主流深度學習框架超詳細對比（內含PPT）

Windows系統下安裝深度學習Caffe軟體及實現MATLAB呼叫的詳細步

深度學習-*-RNN正向及反向傳播

RNN簡介

RNN圖示

正向傳播

反向傳播

相關推薦