臺灣大學深度學習課程學習筆記 lecture3-1 Recurrent Neural Network (RNN)

阿新 • • 發佈：2019-01-28

Recurrent Neural Network （RNN）迴圈神經網路常被用到的領域是Language Modeling，下面就從Language Modeling方法的發展，引入RNN。

Language Modeling

多個word組成一句話，根據一句話出現的概率可以得到更符合語法結構和有意義的句子。
比如根據給出的一段語音，可以得到兩種完全不同的句子“recognize speech”、“wreck a nice beach”，但是“recognize speech”出現的可能性更大。

Language Modeling

N-Gram Language Modeling

想要估算出word sequence的概率，首先介紹了N-Gram Language Model

方法，是一種傳統處理的方法。只考慮前面 (n−1) 個words出現的概率。比如句子“我是誰”，令 n=2 ，“誰”這個字只考慮前面的“是”。

N-Gram

那麼如何確定概率呢？
這需要先收集大量的訓練資料使用機器學習的方法去訓練得到概率。

概率計算

還有一個問題，假如蒐集的訓練集中有些sequences並沒有出現，而恰好這些sequences就出現在了測試資料中。那麼sequences概率就是0，這就會導致上面連乘公式 P(w1,w2,...,wm)=0。哪怕其他概率再大，只要出現一個未知的0，最終結果也是0 。

解決方法也很簡單，叫 Smoothing，就是對這些沒有出現，後面計算概率是直接賦予一個比較小的結果，比如“0.0001”。在一些情況下，效果還是不錯的，但是這種簡單粗暴的方法總是會存在一些問題，首先準確度不夠，其次不同的情況賦予值是相同的。

解決方法

以上就是傳統的處理方法，存在一些侷限性。下面介紹使用深度學習的方法。

Feed-Forward Neural Language Model

假設我們已經有了一個訓練好的神經網路模型，可以輸入資料然後的到各種word出現的概率。
下圖中，輸入不同的vector（黃色），經過相同的神經網路模型（藍色區域）進行預測，得到不同word出現的概率，選擇所需的概率 P 。例如，輸入 vector of “wreck”，選擇對應的 “a”出現的概率 P(nextwordis“a”) ，最後把所有的概率相乘。

神經網路初步應用

NN結構

上面講的神經網路訓練的方法相比傳統的方法有一個優點，如下圖。遇到未訓練過的sequences時，可以自動的Smoothing，填充一個合適的值。原因是，假如訓練資料中只有“…dog jump…”，而預測 “…cat jump…”時，模型會把類似於“dog”、“cat”、“rabbit”等屬性相近的words歸到一類，從而近似的預測“…cat jump…”的概率，最終的結果中 p

(jump|cat) 值會相應的提高，而不是簡單的用0.0001代替。

優勢與劣勢

上面的模型還是需要提供一個window n 的值，但是有時候 n 並不確定。

Recurrent Neural Network Language Model (RNNLM)

RNN 會考慮所有情況，並且和時間也有關係。

RNN

首先，這是之前說的一個神經網路結構的形式。

one-model

RNN Language Model 是將這些網路連線了起來，前一個word的資訊也會傳遞到下一個word模型的計算中去。

RNN-model

單獨看一個神經網路的話，在第 t 個神經網路的隱藏層 ht 中，除了正常的輸入 x 外，還增加了 ht−1 的資訊。

上面一節從傳統方法及其侷限問題，為了解決這些問題，講到使用RNN進行處理。接下來，將對RNN的方法進行詳細講解。

Recurrent Neural Network

Definition

RNN的結構如下，簡單表示就是下圖左的樣子，將其展開後，程式設計下圖右的結構。

每個word按照在句子中的順序，會接收上一個word的神經網路隱藏層並對其賦予 W 權重，與輸入層的資料 xt 一起，隱藏層整合成一個新的線性關係 Wst−1+Uxt 。然後放入啟用函式（一般為 tanh 或 ReLU），經過一系列計算，最終預測出多分類結果（softmax(Vst)）。從結果中找出預測為下一個word的概率值。
最後將本次神經網路的隱藏層同樣賦予 W 權重後再傳遞到下一個word的預測中去。