二十六、圖解遞迴神經網路(RNN)

阿新 • • 發佈：2019-01-16

聊天機器人是需要智慧的，而如果他記不住任何資訊，就談不上智慧，遞迴神經網路是一種可以儲存記憶的神經網路，LSTM是遞迴神經網路的一種，在NLP領域應用效果不錯，本節我們來介紹RNN和LSTM

遞迴神經網路

遞迴神經網路（RNN）是兩種人工神經網路的總稱。一種是時間遞迴神經網路（recurrent neural network），另一種是結構遞迴神經網路（recursive neural network）。時間遞迴神經網路的神經元間連線構成有向圖，而結構遞迴神經網路利用相似的神經網路結構遞迴構造更為複雜的深度網路。兩者訓練的演算法不同，但屬於同一演算法變體（百度百科）。本節我們重點介紹時間遞迴神經網路，下面提到RNN特指時間遞迴神經網路。

時間遞迴神經網路

傳統的神經網路叫做FNN(Feed-Forward Neural Networks)，也就是前向反饋神經網路，有關傳統神經網路的介紹請見《機器學習教程十二-神經網路模型的原理》，RNN是在此基礎上引入了定向迴圈，也就是已神經元為節點組成的圖中存在有向的環，這種神經網路可以表達某些前後關聯關係，事實上，真正的生物神經元之間也是存在這種環形資訊傳播的，RNN也是神經網路向真實生物神經網路靠近的一個進步。一個典型的RNN是這樣的：

圖中隱藏層中的節點之間構成了全連線，也就是一個隱藏層節點的輸出可以作為另一個隱藏層節點甚至它自己的輸入

這種結構可以抽象成：

其中U、V、W都是變換概率矩陣，x是輸入，o是輸出

比較容易看出RNN的關鍵是隱藏層，因為隱藏層能夠捕捉到序列的資訊，也就是一種記憶的能力

在RNN中U、V、W的引數都是共享的，也就是隻需要關注每一步都在做相同的事情，只是輸入不同，這樣來降低引數個數和計算量

RNN在NLP中的應用比較多，因為語言模型就是在已知已經出現的詞的情況下預測下一個詞的概率的，這正是一個有時序的模型，下一個詞的出現取決於前幾個詞，剛好對應著RNN中隱藏層之間的內部連線

RNN的訓練方法

RNN的訓練方法和傳統神經網路一樣，都是使用BP誤差反向傳播演算法來更新和訓練引數。

因為從輸入到最終的輸出中間經過了幾步是不確定的，因此為了計算方便，我們利用時序的方式來做前向計算，我們假設x表示輸入值，s表示輸入x經過U矩陣變換後的值，h表示隱藏層的啟用值，o表示輸出層的值, f表示隱藏層的啟用函式，g表示輸出層的啟用函式：

當t=0時，輸入為x0, 隱藏層為h0

當t=1時，輸入為x1, s1 = Ux1+Wh0, h1 = f(s1), o1 = g(Vh1)

當t=2時，s2 = Ux2+Wh1, h2 = f(s2), o2 = g(Vh2)

以此類推，st = Uxt + Wh(t-1), ht = f(st), ot = g(Vht)

這裡面h=f(現有的輸入+過去記憶總結)是對RNN的記憶能力的全然體現

通過這樣的前向推導，我們是不是可以對RNN的結構做一個展開，成如下的樣子：

這樣從時序上來看更直觀明瞭

下面就是反向修正引數的過程了，每一步輸出o和實際的o值總會有誤差，和傳統神經網路反向更新的方法一樣，用誤差來反向推導，利用鏈式求導求出每層的梯度，從而更新引數，反向推導過程中我們還是把神經網路結構看成展開後的樣子：

根據鏈式求導法則，得出隱藏層的殘差計算公式為：

因此W和U的梯度就是：

LSTM(Long Short Tem Momery networks)

特別講解一下LSTM是因為LSTM是一種特別的RNN，它是RNN能得到成功應用的關鍵，當下非常流行。RNN存在一個長序列依賴(Long-Term Dependencies)的問題：下一個詞的出現概率和非常久遠的之前的詞有關，但考慮到計算量的問題，我們會對依賴的長度做限制，LSTM很好的解決了這個問題，因為它專門為此而設計。

借用http://colah.github.io/posts/2015-08-Understanding-LSTMs/中經典的幾張圖來說明下，第一張圖是傳統RNN的另一種形式的示意圖，它只包含一個隱藏層，以tanh為激發函式，這裡面的“記憶”體現在t的滑動視窗上，也就是有多少個t就有多少記憶，如下圖

那麼我們看LSTM的設計，如下，這裡面有一些符號，其中黃色方框是神經網路層(意味著有權重係數和啟用函式，σ表示sigmoid啟用函式，tanh表示tanh啟用函式)，粉紅圓圈表示矩陣運算(矩陣乘或矩陣加)

這裡需要分部分來說，下面這部分是一個歷史資訊的傳遞和記憶，其中粉紅×是就像一個能調大小的閥門(乘以一個0到1之間的係數)，下面的第一個sigmoid層計算輸出0到1之間的係數，作用到粉紅×門上，這個操作表達上一階段傳遞過來的記憶保留多少，忘掉多少

其中的sigmoid公式如下：

可以看出忘掉記憶多少取決於上一隱藏層的輸出h{t-1}和本層的輸入x{t}

下面這部分是由上一層的輸出h{t-1}和本層的輸入x{t}得出的新資訊，存到記憶中：

其中包括計算輸出值Ct部分的tanh神經元和計算比例係數的sigmoid神經元（這裡面既存在sigmoid又存在tanh原因在於sigmoid取值範圍是[0,1]天然作為比例係數，而tanh取值範圍是[-1,1]可以作為一個輸出值）。其中i{t}和Ct計算公式如下：

那麼Ct輸出就是：

下面部分是隱藏層輸出h的計算部分，它考慮了當前擁有的全部資訊（上一時序隱藏層的輸出、本層的輸入x和當前整體的記憶資訊），其中本單元狀態部分C通過tanh啟用並做一個過濾(上一時序輸出值和當前輸入值通過sigmoid啟用後的係數)

計算公式如下：

LSTM非常適合在NLP領域應用，比如一句話出現的詞可以認為是不同時序的輸入x，而在某一時間t出現詞A的概率可以通過LSTM計算，因為詞A出現的概率是取決於前面出現過的詞的，但取決於前面多少個詞是不確定的，這正是LSTM所做的儲存著記憶資訊C，使得能夠得出較接近的概率。

總結

RNN就是這樣一種神經網路，它讓隱藏層自身之間存在有向環，從而更接近生物神經網路，也具有了儲存記憶的能力，而LSTM作為RNN中更有實用價值的一種，通過它特殊的結構設計實現了永久記憶留存，更適合於NLP，這也為將深度學習應用到自然語言處理開了先河，有記憶是給聊天機器人賦予智慧的前提，這也為我們的聊天機器人奠定了實踐基礎。

二十六、圖解遞迴神經網路(RNN)

遞迴神經網路

時間遞迴神經網路

RNN的訓練方法

LSTM(Long Short Tem Momery networks)

總結

二十六、圖解遞迴神經網路(RNN)

長短期記憶（LSTM）系列_2.1~2.3、用遞迴神經網路簡要介紹序列預測模型

遞迴神經網路(RNN)隨記

遞迴神經網路RNN網路 LSTM

吳恩達Coursera深度學習（5-1）遞迴神經網路 RNN

遞迴神經網路RNN

Tensorflow— 遞迴神經網路RNN

李理：遞迴神經網路RNN扼要

二十六、XML

二十六、正則介紹grep上、grep中、grep下

二十六、Linux 進程與信號---system 函數和進程狀態切換

二十六、python中json學習

二十六、python學習之前端(九):JQuery資料互動

二十六、COUNT(*)與COUNT（列）到底誰更快？

二十六、Springboot整合kafka

深入理解JVM學習筆記(二十六、JVM 記憶體分配----優先分配到eden&空間分配擔保)

二十六、mongodb和python互動

【深度學習】6：RNN遞迴神經網路原理、與MNIST資料集實現數字識別

二十六、閒談Tomcat效能優化

PyTorch--雙向遞迴神經網路(B-RNN)概念，原始碼分析

二十六、圖解遞迴神經網路(RNN)

遞迴神經網路

時間遞迴神經網路

RNN的訓練方法

LSTM(Long Short Tem Momery networks)

總結

相關推薦