迴圈神經網路（RNN）

阿新 • • 發佈：2019-01-13

1.NN & RNN

在神經網路從原理到實現一文中已經比較詳細地介紹了神經網路，下面用一張圖直觀地比較NN與RNN地不同。從圖1中可以看出，RNN比NN多了指向自己的環，即圖1中的7,8,9,10節點及其連線。圖2顯示RNN展開的網路結構。

在傳統的神經網路中，我們假設所有的輸入（包括輸出）之間是相互獨立的。對於很多工來說，這是一個非常糟糕的假設。如果你想預測一個序列中的下一個詞，你最好能知道哪些詞在它前面。RNN之所以迴圈的，是因為它針對系列中的每一個元素都執行相同的操作，每一個操作都依賴於之前的計算結果。換一種方式思考，可以認為RNN記憶了到當前為止已經計算過的資訊。理論上，RNN可以利用任意長的序列資訊，但實際中只能回顧之前的幾步。

圖1

圖2

2.demo

Character Language Model，通過預測下一個字元，從而產生整篇文章。程式碼：min-char-rnn.py

3.前向傳播

圖3

在圖3中

4.後向傳播

一共有T個時刻，引數求導如下：

對t時刻求導，需要用到前面k=1到t的資訊：

[k,t]之間的求導，可以轉換為[k+1,t]對前一時刻求導的乘積：

其中,對前一時刻進行求導：

所以，最終引數更新公式如下：

4.簡單應用

from __future__ import print_function

from keras.datasets import 
 mnist
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.layers import SimpleRNN
from keras.initializations import normal, identity
from keras.optimizers import RMSprop
from keras.utils import np_utils

batch_size = 32
nb_classes = 10
nb_epochs = 200
hidden_units = 100 


learning_rate = 1e-6
clip_norm = 1.0

# the data, shuffled and split between train and test sets
(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], -1, 1)
X_test = X_test.reshape(X_test.shape[0], -1, 1)
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')
X_train /= 255
X_test /= 255
print('X_train shape:', X_train.shape)
print(X_train.shape[0], 'train samples')
print(X_test.shape[0], 'test samples')

# convert class vectors to binary class matrices
Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)

print('Evaluate IRNN...')
model = Sequential()
model.add(SimpleRNN(output_dim=hidden_units,
                    init=lambda shape, name: normal(shape, scale=0.001, name=name),
                    inner_init=lambda shape, name: identity(shape, scale=1.0, name=name),
                    activation='relu',
                    input_shape=X_train.shape[1:]))
model.add(Dense(nb_classes))
model.add(Activation('softmax'))
rmsprop = RMSprop(lr=learning_rate)
model.compile(loss='categorical_crossentropy',
              optimizer=rmsprop,
              metrics=['accuracy'])

model.fit(X_train, Y_train, batch_size=batch_size, nb_epoch=nb_epochs,
          verbose=1, validation_data=(X_test, Y_test))

scores = model.evaluate(X_test, Y_test, verbose=0)
print('IRNN test score:', scores[0])
print('IRNN test accuracy:', scores[1])

5.RNN還可以做什麼

語言模型和文字生成

給定一個詞的序列，我們想預測在前面的詞確定之後，每個詞出現的概率。語言模型可以度量一個句子出現的可能性，這可以作為機器翻譯的一個重要輸入（因為出現概率高的句子通常是正確的）。能預測下一個詞所帶來的額外效果是我們得到了一個生成模型，這可以讓我們通過對輸出概率取樣來生成新的文字。根據訓練資料的具體內容，我們可以生成任意東西。在語言模型中，輸入通常是詞的序列（編碼成one hot向量），輸出是預測得到的詞的序列。在訓練網路是，設定，因為我們想要的時刻的輸出是下一個詞。

關於語言模型和文字生成的研究論文：

機器翻譯

機器翻譯與語言模型相似，輸入是源語言中的一個詞的序列（例如，德語），輸出是目標語言（例如，英語）的一個詞的序列。一個關鍵不同點在於在接收到了完整的輸入後才會開始輸出，因為我們要翻譯得到的句子的第一個詞可能需要前面整個輸入序列的資訊。

關於機器翻譯的研究論文：

迴圈神經網路（RNN）

1.NN & RNN

2.demo

3.前向傳播

4.後向傳播

4.簡單應用

5.RNN還可以做什麼

6.擴充套件

從迴圈神經網路（RNN）到LSTM網路

迴圈神經網路（RNN）原理通俗解釋

吳恩達序列模型學習筆記--迴圈神經網路（RNN）

對迴圈神經網路（RNN）中time step的理解

迴圈神經網路（RNN）

04-迴圈神經網路（RNN）和LSTM

深度學習【8】基於迴圈神經網路（RNN）的端到端（end-to-end）對話系統

大話迴圈神經網路（RNN）

深度學習：迴圈神經網路（RNN）的變體LSTM、GRU

機器學習之迴圈神經網路（十）

基於PTB資料集實現RNN-LSTM迴圈神經網路（智慧填詞）

序列模型（5）-----雙向神經網路（BRNN）和深層迴圈神經網路（Deep RNN）

迴圈神經網路（Recurrent Neural Network, RNN）

迴圈神經網路（一般RNN）推導

小白都理解的人工智慧系列（5）—— 長短期迴圈神經網路LSTM RNN NO4

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（1）

DeepLearning.ai筆記:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（2）

DeepLearning.ai作業:(5-1)-- 迴圈神經網路（Recurrent Neural Networks）（3）

TensorFlow HOWTO 5.1 迴圈神經網路（時間序列）

迴圈神經網路（RNN）

1.NN & RNN

2.demo

3.前向傳播

4.後向傳播

4.簡單應用

5.RNN還可以做什麼

6.擴充套件

相關推薦