總說

這篇主要是如何一步步說明RNN和LSTM的形式的構造，方便對模型有一個更直觀的理解。寫的比較隨意。

RNN

我們知道，卷積是一個輸入，得到一個輸出。但有時候我們想輸出一串，然後得到一串輸出呢？並且是這一串都是相互有關聯的，比如句子翻譯。我們就需要一種能針對歷史資訊進行融合的單元，比如RNN。其實想想，只要以某種形式，將歷史資訊與當前輸入進行有效融合的方式，應該都可以處理類似的問題。

和CNN的區別是，RNN有一個隱層狀態ht，這個狀態必須將歷史的輸入x1,x2,...,xt−1和當前的輸入xt進行融合。由於我們RNN是一個迭代的過程，對於第t次，輸入只有xt，那歷史的輸入怎麼辦呢？這就要用到“歷史資訊”，也就是t

−1時刻的隱層狀態ht−1。這個歷史資訊只要和歷史輸入掛鉤就行。

比如第一次，我們先設定一個h0，那麼h1應該是x1和h0的融合。嗯，沒錯。這樣一來，h2應該是x2和h1的融合。此時h2的得到不僅融合了歷史輸入x1還結合了當前輸入x2。

我們通過增加了一個隱層狀態，從而使得RNN能夠將當前輸入與歷史輸入進行有效的融合。隱層狀態是歷史資訊的載體。

對於每次新的輸入xt必須要和已有的隱層狀態ht−1（就是下左圖的中間一行的第一個結點的狀態）進行融合的。融合方式很簡單，我們只需要對ht−1和xt分別進行一個變換，好讓其輸入的維度等於ht的維度就行。所以就有W1和W2，分別表示對當前的輸入xt以及歷史輸入的一個“取捨程度”。

RNN還要有輸出，既然是迭代的，顯然對於第t次迭代，就會有y^t輸出。我們不能直接把ht輸出吧，為了增加複雜性，乘以一個權重W3吧，用於表示對當前隱層狀態ht的一個“取捨”。
所以自然就有下面:

ht=tanh(W1ht−1+W2xt)
y¯=W3ht
這裡寫圖片描述

值得注意的是，這幅圖左邊是展開形式。那麼要定義給一個RNN，我們當然要定義這個t最大是多少。比如我們希望t最多迭代3次。那麼我們就有h1, h2和h3, 就相當於有3個隱層神經元。因此RNN最多迭代次數就是我們所說的time step的最大值，也是recurrent layer的數目。

看看pytorch的對應函式，emmm，沒啥問題。預設的隱層啟用函式是tanh, 也可以選擇 relu.
這裡寫圖片描述

num_layers是什麼？
是RNN有多少層，前面看到的都是一層的RNN。比如很經典的預測下一個字母：
輸入是one-hot形式的4*1向量，紅色層是輸入層。隱層淺綠色，狀態是3*1。因此Wxh應該是3*4的矩陣。輸出是淺藍色部分，大小是4*1的。所以Why是4*3的矩陣。隱層time step的迭代顯然是3*3的方陣Whh 。

這裡寫圖片描述

前面的例子都是，輸入經過經過一次線性變換，成為隱層狀態，再經過一次線性變換，直接變成輸出了。為了增加複雜性，可以讓隱層狀態經過多次線性變換，再到輸出。這就是多層RNN！
下面是3層的（綠色代表深度為3的隱層，紅色是輸入層，藍色是輸出層）
這裡寫圖片描述

BPTT

反向傳播的梯度推導如下，看看就行。

這裡寫圖片描述

顯然容易出現梯度爆炸或者梯度消失的現象。對於梯度爆炸，直接梯度裁剪就行。但是梯度消失，就不好弄了，你不可能直接乘以一個數吧~~。

如何解決RNN的梯度消失問題

看看原來咋弄的：

ht=tanh(W1ht−1+W2xt)
原來的當前隱層狀態的得到，是直接將當前輸入和上一次迭代的隱層狀態，進行簡單融合。那麼求導時，自然就會有連乘形式，那就容易爆炸或是消失啊！要不轉換成“連加”吧。

ut=tanh(W1ht−1+W2xt)
ht=ht−1+ut

現在是，上一次迭代的隱層狀態和當前的輸入，融合後的

相關推薦

簡易理解RNN與LSTM

總說這篇主要是如何一步步說明RNN和LSTM的形式的構造，方便對模型有一個更直觀的理解。寫的比較隨意。 RNN 我們知道，卷積是一個輸入，得到一個輸出。但有時候我們想輸出一串，然後得到一串輸出呢？並且是這一串都是相互有關聯的，比如句子翻譯。我們就需要

（數據科學學習手劄39）RNN與LSTM基礎內容詳解

連續添加方式定義翻譯下一個 BE img 誤差一、簡介　　循環神經網絡（recurrent neural network，RNN），是一類專門用於處理序列數據（時間序列、文本語句、語音等）的神經網絡，尤其是可以處理可變長度的序列；在與傳統的時間序列分析進行比較

TensorFlow(十一)：遞歸神經網絡（RNN與LSTM）

如何 style work 收縮不變函數概率隨著其他 RNN RNN（Recurrent Neural Networks,循環神經網絡）不僅會學習當前時刻的信息，也會依賴之前的序列信息。由於其特殊的網絡模型結構解決了信息保存的問題。所以RNN對處理時間序列和語言文

RNN與LSTM原理

激活行操作 lar open 原理深入先來 src 結構下面只是我個人的理解，最近在做關於LSTM的項目，看看還能不能理解的更深入，之後還會根據項目進行更新。如果有錯誤還請多多指教 1. 傳統神經網絡介紹遞歸神經網絡之前我們可以先看一下傳統神經網絡傳統

RNN 與 LSTM 的原理詳解

本文主要講解了 RNN 和 LSTM 的結構、前饋、反饋的原理，參考了https://www.jianshu.com/p/f3bde26febed/、https://www.jianshu.com/p/9dc9f41f0b29 與 https://blog.csdn.net/zh

RNN與LSTM（反向傳播待補充）

1.RNN 針對問題：訓練樣本是序列資料模型思想：迴圈反饋模型特點：（1）隨著序列的推進，前面的隱層將會影響後面的隱層（2）U、V、W權值共享（3）每個輸入只與它本身的那條路線建立權連線，不會和別的神經元連線。模型缺點：梯度消失，無法處理長序列

RNN與LSTM

前言迴圈神經網路，迴圈神經網路與卷積神經網路有很大的不同。就是有“記憶暫存”功能，可以把過去的輸入內容產生的影響量化後與當前時間輸入一起反應到網路中參與訓練。 RNN理解個人理解，RNN還是在模仿人類。在模仿人類的學習的過程。根據前言所述，當前輸入

CNN、RNN與LSTM（轉）

神經網路技術起源於上世紀五、六十年代，當時叫感知機（perceptron），擁有輸入層、輸出層和一個隱含層。輸入的特徵向量通過隱含層變換達到輸出層，在輸出層得到分類結果。早期感知機的推動者是Rosenblatt。（扯一個不相關的：由於計算技術的落後，當時感知器傳

深度學習基礎：RNN與LSTM

這一篇主要是想根據Google的Colah的文章《Understanding LSTM Networks》闡述一下什麼是LSTM（Long Short Time Memory）網路。 RNN：Recurrent or Recursive RNN可以指代兩種

【備忘】深度學習實戰專案-利用RNN與LSTM網路原理進行唐詩生成視訊課程

第1章遞迴神經網路原理（RNN）34分鐘4節1-1課程簡介[免費觀看]01:211-2遞迴神經網路（RNN）08:391-3RNN網路細節11:541-4LSTM網路架構12:36第2章RNN手寫字型識別32分鐘3節2-1處理Mnist資料集11:502-2RNN網路模型1

RNN與LSTM之間的介紹和公式梳理

最近在整理tensorflow，經常用到RNN與lSTM，故整理如下： -RNN：迴圈神經網路(Recurrent Neural Networks) -LSTM：長短時記憶網路（Long Short-Term Memory）在看這篇文章之前，如果之前沒有

[人工智慧]RNN與LSTM的深度學習（20180830)

寫在前面主要是想通過RNN來做一個分析價格的工具，最好是能夠做個預測，預測準確率達到51%即可。因此想試試。踩坑經驗 1.配置環境的坑通過前文的安裝環境之後，會遇到各種坑。但是基本上都

RNN，LSTM和GRU和word2vec及embedding等的聯絡與區別解析。

普通的MLP和CNN都沒有事件維度，可以從RNN開始引入了事件維度，這在理解上給我們帶來了一些困難，筆者為了避免遺忘，將這種區別和特點記錄如下。（沒時間畫圖，就看文字吧，寫的比較簡單。。。）資料 https://zhuanlan.zhihu.com/p/36455374 這

記憶網路RNN、LSTM與GRU

一般的神經網路輸入和輸出的維度大小都是固定的，針對序列型別（尤其是變長的序列）的輸入或輸出資料束手無策。RNN通過採用具有記憶的隱含層單元解決了序列資料的訓練問題。LSTM、GRU屬於RNN的改進，解決了RNN中梯度消失爆炸的問題，屬於序列資料訓練的常

RNN與反向傳播演算法（BPTT）的理解

RNN是序列建模的強大工具。今天主要搬運兩天來看到的關於RNN的很好的文章： PS: 第一個連結中的Toy Code做一些說明之所以要迴圈8（binary_dim=8）次，是因為輸入是2維的（a和b各輸入一個bit），那麼，每個bit只會影響8

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

說明：本文為斯坦福大學CS224d課程的中文版內容筆記，已得到斯坦福大學課程@Richard Socher教授的授權翻譯與發表 1.語言模型語言模型用於對特定序列的一系列詞彙的出現概率進行計算。一個長度為m的詞彙序列{w1,…,wm}的聯合概率被表示為

模式識別中監督學習與非監督學習的簡易理解，摘自百度

有監督學習(supervised learning)和無監督學習(unsupervised learning) 機器學習的常用方法，主要分為有監督學習(supervised learning)和無監督學習(unsupervised learning)。

臺灣大學深度學習課程學習筆記 Lecture 5-1: Gated RNN（LSTM與GRU介紹）

Review RNN 假設現在有3個sequence表示為 x1、x2、x3，設定的初始化向量 h0 ；將 x1 與h0放入function f 中，得到 y1 與 h1，h1是和h0 維度一樣的；把 x2 與 h1 放入與之前一樣的 f 中

寫給程式設計師的機器學習入門 (五) - 遞迴模型 RNN，LSTM 與 GRU

## 遞迴模型的應用場景在前面的文章中我們看到的多層線性模型能處理的輸入數量是固定的，如果一個模型能接收兩個輸入那麼你就不能給它傳一個或者三個。而有時候我們需要根據數量不一定的輸入來預測輸出，例如文字就是數量不一定的輸入，“這部片非常好看” 有 7 個字，“這部片很無聊” 有 6 個字，如果我們想根據文字

從rnn到lstm，再到seq2seq（二）

app 感受 ima bsp expand images cat https github 從圖上可以看出來，decode的過程其實都是從encode的最後一個隱層開始的，如果encode輸入過長的話，會丟失很多信息，所以設計了attation機制。 attati