DL課程：RNN、LSTM、GRU及相關應用案例程式碼

阿新 • • 發佈：2018-12-20

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。

前面學習了CNN卷積神經網路，本文主要介紹RNN迴圈神經網路及相關升級版。

RNN迴圈神經網路：

RNN（Recurrent Neural Network）是一類用於處理序列資料的神經網路。簡單來看，把序列按時間展開結構如下：

結構中：
①Xt是時間t處的輸入；
②St是時間t處的“記憶”，St=f(UXt+WSt−1)，f可以是tanh等;
③Ot是時間t出的輸出，比如是預測下個詞的話，可能是softmax輸出的屬於每個候選詞的概率，Ot = softmax(VSt)。
結構細節：
①可以把隱狀態St視作“記憶體”，捕捉了之前時間點上的資訊；
②輸出Ot由當前時間及之前所有的“記憶”共同計算得到；
③很可惜，實際應用中，St並不能捕捉和保留之前所有資訊（記憶有限？）
④不同於CNN，這裡的RNN其實整個神經網路都共享一組引數（U,V,W），極大減小了需要訓練和預估的引數量；
⑤圖中的Ot在有些任務下是不存在的，比如文字情感分析，其實只需要最後的output結果就行。

梯度計算：DNN和CNN都是用BP演算法求偏導，RNN是用BPTT（back-propagation through time）其實本質還是BP演算法，只不過RNN處理時間序列資料，所以要基於時間反向傳播，故叫隨時間反向傳播。BPTT的中心思想和BP演算法相同，沿著需要優化的引數的負梯度方向不斷尋找更優的點直至收斂。

①先按照BP鏈式求導，可以看到它依賴於前一時刻的sj-1：

②我們總結規律得到：

③我們會發現累乘會導致啟用函式導數的累乘，進而會導致“梯度消失“和“梯度爆炸“現象的發生。具體參考（參考一）
雙向RNN:
①有些情況下，當前的輸出不只依賴於之前的序列元素，還可能依賴之後的序列元素；
②比如從一段話踢掉部分詞，讓你補全；
③直觀理解：雙向RNN疊加，具體結構如下圖：
深層雙向RNN:和雙向RNN的區別是每一步/每個時間點我們設定多層結構 :

LSTM(long short-term memory)長短期記憶網路:

長短期記憶網路是RNN的一種變體，RNN由於梯度消失的原因只能有短期記憶，LSTM網路通過精妙的門控制將短期記憶與長期記憶結合起來，並且一定程度上解決了梯度消失的問題;

與RNN的區別是：
① 它的“記憶細胞”改造過：

②該記的資訊會一直傳遞，不該記的會被“門”截斷。
LSTM關鍵：“細胞狀態”：
①細胞狀態類似於傳送帶。直接在整個鏈上執行，只有一些少量的線性互動。資訊在上面流傳保持不變會很容易。

②LSTM怎麼控制“細胞狀態”？（1）通過“門”讓資訊選擇性通過，來去除或者增加資訊到細胞狀態；（2）包含一個sigmoid神經網路層和一個pointwise乘法操作；（3）Sigmoid 層輸出0到1之間的概率值，描述每個部分有多少量可以通過。0代表“不許任何量通過”，1就指“允許任意量通過”。
LSTM的幾個關鍵“門”與操作：
（1）決定從“細胞狀態”中丟棄什麼資訊 => “忘記門”：

（2）決定放什麼新資訊到“細胞狀態”中：①Sigmoid層決定什麼值需要更新；②Tanh層建立一個新的候選值向量 $\tilde{C_{t}}$ ；③上述2步是為狀態更新做準備。

（3）更新“細胞狀態”：①更新Ct-1為Ct ；②把舊狀態與ft相乘，丟棄掉我們確定需要丟棄的資訊；③加上it* $\tilde{C_{t}}$ 。這就是新的候選值，根據我們決定更新每個狀態的程度進行變化。

（4）基於“細胞狀態”得到輸出：① 首先執行一個sigmoid 層來確定細胞狀態的哪個部分將輸出；②接著用tanh處理細胞狀態(得到一個在-1到1之間的值)，再將它和sigmoid門的輸出相乘，輸出我們確定輸出的那部分。 ③比如我們可能需要單複數資訊來確定輸出“他”還是“他們”：
一些變種：
①增加“peephole connection”，讓門層也會接受細胞狀態的輸入。

②通過使用 coupled 忘記和輸入門，之前是分開確定需要忘記和新增的資訊，這裡是一同做出決定。

GRU(Gated Recurrent Unit）神經網路:

它是2014年提出，將忘記門和輸入門合成了一個單一的更新門，同樣還混合了細胞狀態和隱藏狀態，和其他一些改動，比標準LSTM簡單：

其他推倒具體參考：參考一

案例程式碼：歡迎關注我的github

To be continue......

DL課程：RNN、LSTM、GRU及相關應用案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。前面學習了CNN卷積神經網路，本文主要介紹RNN迴圈神經網路及相關升級版。 RNN迴圈神經網路： RNN（Recurrent Neural Network）是一類用於處理序列資料的神經網路。簡單來看，把序列按時間展開結構如下：

DL課程：CNN及相關應用案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。前面介紹了MLP、RNN以及相關案例，本文主要介紹一種新的神經網路：CNN卷積神經網路。 CNN卷積神經網路: 卷積神經網路相比RNN多了很多層級，主要包括以下幾個層次：input layer資料輸入層、conv卷積計算層、Ac

ml課程：模型融合與調優及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。這篇文章主要介紹模型融合及引數調優相關內容，以及《百面機器學習》上關於模型評估、整合相關內容，最後還有相關案例程式碼。先放一張大家都比較熟悉的圖：這是模型選擇的一個流程圖，可以作為相關的參考。模型評估：評估

ml課程：FM因子分解機介紹及相關程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。 FM(factorization machines)表示因子分解機，是由Steffen Rendle提出的一種基於矩陣分解的機器學習演算法。目前，被廣泛的應用於廣告預估模型中，相比LR而言，效果更好。主要目標是：解決資料稀疏的情況下，特

DL課程：MLP、DNN、Wide&deep model及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。線性分類和邏輯迴歸兩種簡單的模型大家應該都知道：（ml課程：線性迴歸、邏輯迴歸入門（含程式碼實現））機器學習中，分類和迴歸常用損失函式大家也都熟悉：（ml課程：機器學習演算法串講及相關常見問題總結）神經網路：一般神經網

記憶網路RNN、LSTM與GRU

一般的神經網路輸入和輸出的維度大小都是固定的，針對序列型別（尤其是變長的序列）的輸入或輸出資料束手無策。RNN通過採用具有記憶的隱含層單元解決了序列資料的訓練問題。LSTM、GRU屬於RNN的改進，解決了RNN中梯度消失爆炸的問題，屬於序列資料訓練的常

RNN、LSTM、Seq2Seq、Attention、Teacher forcing、Skip thought模型總結

RNN RNN的發源：單層的神經網路（只有一個細胞，f(wx+b)，只有輸入，沒有輸出和hidden state）多個神經細胞（增加細胞個數和hidden state，hidden是f(wx+b)，但是依然沒有輸出）這裡RNN同時和當前的輸入有關係，並且是上一層的輸出有關係。初步

臺灣大學深度學習課程學習筆記 Lecture 5-1: Gated RNN（LSTM與GRU介紹）

Review RNN 假設現在有3個sequence表示為 x1、x2、x3，設定的初始化向量 h0 ；將 x1 與h0放入function f 中，得到 y1 與 h1，h1是和h0 維度一樣的；把 x2 與 h1 放入與之前一樣的 f 中

CS231n-2017 Assignment3 RNN、LSTM、風格遷移

一、RNN 所需完成的步驟記錄在RNN_Captioning.ipynb檔案中。本例中所用的資料為Microsoft於2014年釋出的COCO資料集。該資料集中和影象標註想拐的圖片包含80000張訓練圖片和40000張驗證圖片。而這些圖片的特徵已通過VGG-16網路獲得，儲存在tr

機器學習（ML）九之GRU、LSTM、深度神經網路、雙向迴圈神經網路

門控迴圈單元（GRU）迴圈神經網路中的梯度計算方法。當時間步數較大或者時間步較小時，迴圈神經網路的梯度較容易出現衰減或爆炸。雖然裁剪梯度可以應對梯度爆炸，但無法解決梯度衰減的問題。通常由於這個原因，迴圈神經網路在實際中較難捕捉時間序列中時間步距離較大的依賴關係。門控迴圈神經網路（gated recurre

Linux網路程式設計：socket程式設計簡介、網路位元組序及相關函式

Socket(套接字) socket可以看成是使用者程序與核心網路協議棧的程式設計介面（API函式）。 socket不僅可以用於本機的程序間通訊，還可以用於網路上不同主機的程序間通訊。 IPv4套接字地址結構 IPv4套接字地址結構通常也稱為“網際套接字地址結構”，它以

RNN，LSTM和GRU和word2vec及embedding等的聯絡與區別解析。

普通的MLP和CNN都沒有事件維度，可以從RNN開始引入了事件維度，這在理解上給我們帶來了一些困難，筆者為了避免遺忘，將這種區別和特點記錄如下。（沒時間畫圖，就看文字吧，寫的比較簡單。。。）資料 https://zhuanlan.zhihu.com/p/36455374 這

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

說明：本文為斯坦福大學CS224d課程的中文版內容筆記，已得到斯坦福大學課程@Richard Socher教授的授權翻譯與發表 1.語言模型語言模型用於對特定序列的一系列詞彙的出現概率進行計算。一個長度為m的詞彙序列{w1,…,wm}的聯合概率被表示為

深度學習基礎：RNN與LSTM

這一篇主要是想根據Google的Colah的文章《Understanding LSTM Networks》闡述一下什麼是LSTM（Long Short Time Memory）網路。 RNN：Recurrent or Recursive RNN可以指代兩種

寫給程式設計師的機器學習入門 (五) - 遞迴模型 RNN，LSTM 與 GRU

## 遞迴模型的應用場景在前面的文章中我們看到的多層線性模型能處理的輸入數量是固定的，如果一個模型能接收兩個輸入那麼你就不能給它傳一個或者三個。而有時候我們需要根據數量不一定的輸入來預測輸出，例如文字就是數量不一定的輸入，“這部片非常好看” 有 7 個字，“這部片很無聊” 有 6 個字，如果我們想根據文字