吳恩達Coursera深度學習（5-1）遞迴神經網路 RNN

阿新 • • 發佈：2019-01-13

Class 5：序列模型 Sequence Models

Week 1：迴圈神經網路 RNN（Recurrent）

語音識別：將輸入的語音訊號直接輸出相應的語音文字資訊。無論是語音訊號還是文字資訊均是序列資料。
音樂生成：生成音樂樂譜。只有輸出的音樂樂譜是序列資料，輸入可以是空或者一個整數。
情感分類：將輸入的評論句子轉換為相應的等級或評分。輸入是一個序列，輸出則是一個單獨的類別。
DNA序列分析：找到輸入的DNA序列的蛋白質表達的子序列。
機器翻譯：兩種不同語言之間的想換轉換。輸入和輸出均為序列資料。
視訊行為識別：識別輸入的視訊幀序列中的人物行為。
命名實體識別：從輸入的句子中識別實體的名字。

2、數學符號

這裡寫圖片描述

3、迴圈神經網路

傳統標準的神經網路

對於學習X和Y的對映，我們可以很直接的想到一種方法就是使用傳統的標準神經網路。也許我們可以將輸入的序列X以某種方式進行字典編碼以後，如one-hot編碼，輸入到一個多層的深度神經網路中，最後得到對應的輸出Y。如下圖所示：
這裡寫圖片描述

但是，結果表明這種方法並不好，主要是存在下面兩個問題：

輸入和輸出資料在不同的例子中可以有不同的長度；

這種樸素的神經網路結果並不能共享從文字不同位置所學習到的特徵。（如卷積神經網路中學到的特徵的快速地推廣到圖片其他位置）

迴圈神經網路

迴圈神經網路作為一種新型的網路結構，在處理序列資料問題上則不存在上面的兩個缺點。在每一個時間步中，迴圈神經網路會傳遞一個啟用值到下一個時間步中，用於下一時間步的計算。如下圖所示：
這裡寫圖片描述
這裡需要注意在零時刻，我們需要編造一個啟用值，通常輸入一個零向量，有的研究人員會使用隨機的方法對該初始啟用向量進行初始化。同時，上圖中右邊的迴圈神經網路的繪製結構與左邊是等價的。

迴圈神經網路是從左到右掃描資料的，同時共享每個時間步的引數。
這裡寫圖片描述
上述迴圈神經網路結構的缺點：每個預測輸出y< t>僅使用了前面的輸入資訊，而沒有使用後面的資訊。Bidirectional RNN（雙向迴圈神經網路）可以解決這種存在的缺點。

迴圈神經網路的前向傳播

下圖是迴圈神經網路結構圖：
這裡寫圖片描述

4、穿越時間的反向傳播

為了進行反向傳播計算，使用梯度下降等方法來更新RNN的引數，我們需要定義一個損失函式，如下：
這裡寫圖片描述
上式表示將每個輸出的損失進行求和即為整體的損失函式。反向傳播演算法按照前向傳播相反的方向進行導數計算，來對引數進行更新。其中比較特別的是在RNN中，從右向左的反向傳播計算是通過時間來進行，如穿越時間的反向計算。

一般可以通過成熟的深度學習框架自動求導，例如PyTorch、Tensorflow等

5、不同型別的RNN

對於RNN，不同的問題需要不同的輸入輸出結構。

Many-to-Many (Tx=Ty)
這種情況下的輸入和輸出的長度相同，是上面例子的結構，如下圖所示：
這裡寫圖片描述

many-to-one:
如在情感分類問題中，我們要對某個序列進行正負判別或者打星操作。在這種情況下，就是輸入是一個序列，但輸出只有一個值：
這裡寫圖片描述

one-to-many
如在音樂生成的例子中，輸入一個音樂的型別或者空值，直接生成一段音樂序列或者音符序列。在這種情況下，就是輸入是一個值，但輸出是一個序列：
這裡寫圖片描述

many-to-many (Tx != Ty)
我們上面介紹的一種RNN的結構是輸入和輸出序列的長度是相同的，但是像機器翻譯這種類似的應用來說，輸入和輸出都是序列，但長度卻不相同，這是另外一種多對多的結構：
這裡寫圖片描述

6、語言模型和序列生成

語言模型是自然語言處理（NLP）中最基本和最重要的任務之一。使用RNN能夠很好地建立需要的不同語言風格的語言模型。

什麼是語言模型呢？舉個例子，在語音識別中，某句語音有兩種翻譯：

The apple and pair salad.

The apple and pear salad.

很明顯，第二句話更有可能是正確的翻譯。語言模型實際上會計算出這兩句話各自的出現概率。比如第一句話概率為 $10^{- 13}$ ，第二句話概率為 $10^{- 10}$ 。也就是說，利用語言模型得到各自語句的概率，選擇概率最大的語句作為正確的翻譯。概率計算的表示式為：
這裡寫圖片描述
如何使用RNN構建語言模型？首先，我們需要一個足夠大的訓練集，訓練集由大量的單詞語句語料庫（corpus）構成。然後，對corpus的每句話進行切分詞（tokenize）。做法就跟第2節介紹的一樣，建立vocabulary，對每個單詞進行one-hot編碼。例如下面這句話：

The Egyptian Mau is a bread of cat.

One-hot編碼已經介紹過了，不再贅述。還需注意的是，每句話結束末尾，需要加上< EOS >作為語句結束符。另外，若語句中有詞彙表中沒有的單詞，用< UNK >表示。假設單詞“Mau”不在詞彙表中，則上面這句話可表示為：

The Egyptian < UNK > is a bread of cat. < EOS >

準備好訓練集並對語料庫進行切分詞等處理之後，接下來構建相應的RNN模型。
這裡寫圖片描述

7、Sampling novel sequences

利用訓練好的RNN語言模型，可以進行新的序列取樣，從而隨機產生新的語句。與上一節介紹的一樣，相應的RNN模型如下所示：
這裡寫圖片描述

8、RNN的梯度消失

RNN在NLP中具有很大的應用價值，但是其存在一個很大的缺陷，那就是梯度消失的問題。例如下面的例句中：

The cat, which already ate ………..，was full；
The cats, which already ate ………..，were full.

在這兩個句子中，cat對應著was，cats對應著were，（中間存在很多很長省略的單詞），句子中存在長期依賴（long-term dependencies），前面的單詞對後面的單詞有很重要的影響。但是我們目前所見到的基本的RNN模型，是不擅長捕獲這種長期依賴關係的。

如下圖所示，和基本的深度神經網路結構類似，輸出y得到的梯度很難通過反向傳播再傳播回去，也就是很難對前面幾層的權重產生影響，所以RNN也有同樣的問題，也就是很難讓網路記住前面的單詞是單數或者複數，進而對後面的輸出產生影響。
這裡寫圖片描述
對於梯度消失問題，在RNN的結構中是我們首要關心的問題，也更難解決；雖然梯度爆炸在RNN中也會出現，但對於梯度爆炸問題，因為引數會指數級的梯度，會讓我們的網路引數變得很大，得到很多的Nan或者數值溢位，所以梯度爆炸是很容易發現的，我們的解決方法就是用梯度修剪，也就是觀察梯度向量，如果其大於某個閾值，則對其進行縮放，保證它不會太大。

9、GRU單元

門控迴圈單元（Gated Recurrent Unit, GRU）改變了RNN的隱藏層，使其能夠更好地捕捉深層次連線，並改善了梯度消失的問題。

RNN單元 ，RNN的隱藏層單元結構如下圖所示：
這裡寫圖片描述
為了解決梯度消失問題，對上述單元進行修改，添加了記憶單元，構建GRU，如下圖所示：

簡化的GRU單元
這裡寫圖片描述
我們以時間步從左到右進行計算的時候，在GRU單元中，存在一個新的變數稱為c，（代表cell）,作為“記憶細胞”，其提供了長期的記憶能力。

上面介紹的是簡化的GRU模型，完整的GRU添加了另外一個gate，即 $Γ_{r}$ ，表示式如下：
這裡寫圖片描述
注意，以上表達式中的∗表示元素相乘，而非矩陣相乘。

10、LSTM（long short term memory）

LSTM是另一種更強大的解決梯度消失問題的方法。它對應的RNN隱藏層單元結構如下圖所示：
這裡寫圖片描述

GRU可以看成是簡化的LSTM，兩種方法都具有各自的優勢。

11、雙向RNN（Bidirectional）

對於下圖的單向RNN的例子中，無論我們的RNN單元是基本的RNN單元，還是GRU，或者LSTM單元，對於例子中第三個單詞”Teddy”很難判斷是否是人名，僅僅使用前面的兩個單詞是不夠的，需要後面的資訊來進行判斷，但是單向RNN就無法實現獲取未來的資訊。
這裡寫圖片描述

雙向RNN結構如下圖所示：
這裡寫圖片描述

BRNN能夠同時對序列進行雙向處理，效能大大提高。但是計算量較大，且在處理實時語音時，需要等到完整的一句話結束時才能進行分析。

在NLP問題中，常用的就是使用雙向RNN的LSTM。

12、Deep RNNs

Deep RNNs由多層RNN組成，其結構如下圖所示：
這裡寫圖片描述

我們知道DNN層數可達100多，而Deep RNNs一般沒有那麼多層，3層RNNs已經較複雜了。

另外一種Deep RNNs結構是每個輸出層上還有一些垂直單元，如下圖所示：
這裡寫圖片描述

吳恩達Coursera深度學習（5-1）遞迴神經網路 RNN

Class 5：序列模型 Sequence Models

Week 1：迴圈神經網路 RNN（Recurrent）

目錄

1、序列模型的應用

2、數學符號

3、迴圈神經網路

4、穿越時間的反向傳播

5、不同型別的RNN

6、語言模型和序列生成

7、Sampling novel sequences

8、RNN的梯度消失

9、GRU單元

10、LSTM（long short term memory）

11、雙向RNN（Bidirectional）

12、Deep RNNs

吳恩達Coursera深度學習（5-1）遞迴神經網路 RNN

吳恩達Coursera深度學習（4-1）程式設計練習

吳恩達Coursera深度學習（4-3）目標檢測

吳恩達Coursera深度學習（2-3）超引數除錯和Batch Norm

吳恩達Coursera深度學習（4-2）深度卷積模型

吳恩達DeepLearning.ai筆記（5-1）-- 迴圈序列模型

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-1）-- 迴圈神經網路

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-3）-- 序列模型和注意力機制

吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--程式設計作業(二)：觸發字檢測

吳恩達Coursera深度學習課程 DeepLearning.ai 程式設計作業——Regularization（2-1.2）

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-2）-- 神經網路基礎

吳恩達Coursera深度學習課程 deeplearning.ai (5-1) 迴圈序列模型--程式設計作業(一)：構建迴圈神經網路

吳恩達Coursera深度學習課程筆記（1-1）神經網路和深度學習-深度學習概論

吳恩達Coursera深度學習課程 deeplearning.ai (5-1) 迴圈序列模型--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(一)：詞向量運算

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-3）-- 淺層神經網路

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(二)：Emojify表情包

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-4）-- 深層神經網路

吳恩達Coursera深度學習課程 DeepLearning.ai 程式設計作業——Optimization Methods（2-2）

吳恩達Coursera深度學習（5-1）遞迴神經網路 RNN

Class 5：序列模型 Sequence Models

Week 1：迴圈神經網路 RNN（Recurrent）

目錄

1、序列模型的應用

2、數學符號

3、迴圈神經網路

4、穿越時間的反向傳播

5、不同型別的RNN

6、語言模型和序列生成

7、Sampling novel sequences

8、RNN的梯度消失

9、GRU單元

10、LSTM（long short term memory）

11、雙向RNN（Bidirectional）

12、Deep RNNs

相關推薦