RNN簡介

迴圈神經網路是一類用於處理序列資料的神經網路。就像卷積網路是專門處理網格化資料X(如一個影象)的神經網路，迴圈神經網路是專門用於處理序列x(1),...,x(τ)的神經網路。正如卷積網路可以很容易地擴充套件到具有很大寬度和高度的影象，以及處理大小可變的影象，迴圈網路可以擴充套件到更長的序列，且大多數迴圈網路可以處理可變長度的序列。

從多層網路出發到迴圈網路，我們需要利用20世紀80年代機器學習和統計模型早期思想的優點：在模型的不同部分共享引數。引數共享使得模型能夠擴充套件到不同形式的樣本(這裡指不同長度的樣本)並進行泛華。如果我們在每個時間點都有一個單獨的引數，不但不能泛化到訓練時沒有見過的序列長度，也不能在時間上共享不同序列長度和不同位置的統計強度。

為了簡單起見，我們說的RNN是指在序列上的操作，並且該序列在時刻t(從1到τ)包含向量x(t)。在實際情況中，迴圈網路通常在序列上的小批量上操作，並且小批量的每項具有不同序列長度τ。此外，RNN可以應用於跨越兩個維度的空間資料(如影象)。當應用於涉及時間的資料，並且將整個序列提供給網路之前就能觀察到整個序列時，網路可具有關於時間向後的連線。

序列建模方法：展開計算圖

計算圖是形式化一組計算結構的方式，如那些涉及將輸入和引數對映到輸出和損失的計算。我們對展開(unfolding)遞迴或迴圈計算得到的重複結構進行解釋，這些重複結構通常對應於一個事件鏈。展開這個計算圖將導致深度網路結構中的引數共享。

如：考慮動態系統的經典形式:

s(t)=f(st−1;θ)=f(f(st−2;θ);θ)=...

其中s(t)稱為系統的狀態。s在時刻t的定義需要參考時刻t−1時同樣的定義，故上式是迴圈的。
以上述方式展開等式，就能得到不涉及迴圈的表達。現在我們用傳統的有無環計算圖表達。

這裡寫圖片描述

另一個例子，考慮外部訊號x(t)驅動的動態系統，

s(t)=f(s(t−1),x(t);θ)
可以看到，當前狀態包含了整個過去序列的資訊。

很多迴圈神經網路使用下式或類似的公式定義隱藏單元的值。為了表明狀態是網路的隱藏單元，我們使用變數h代表狀態重寫式:

h(t)=f(h(t−1),x(t);θ)

如下圖所示，典型RNN會增加額外的架構(我們所說的展開

(unfolding)就是這個操作)。

這裡寫圖片描述

當訓練迴圈網路根據過去預測未來時，對映任意長度的序列(x(t),x(t−1),...,x(2),x(1))到一固定長度的向量h(t).根據不同的訓練準則，摘要可能選擇性地精確保留過去序列的某些方面。例如，如果在統計語言建模中使用的RNN，通常給定前一個詞預測下一個詞，可能沒有必要儲存時刻t前輸入序列中的所有資訊；而僅僅儲存足夠預測句子其餘部分的資訊。

我們可以用一個函式g(t)代表t步展開後的迴圈:

h(t)=g(t)(x(t),x(t−1),...,x(2),x(1))=f(h(t−1),x(t);θ)

函式g(t)將全部的過去序列(x(t),x(t−1),...,x(2),x(1))作為輸入來生成當前狀態，展開的迴圈架構允許我們將g(t)分解為函式f的重複應用。因此，展開過程引入兩個主要優點：

無論序列的長度，學成的模型始終具有相同的的輸入大小，因為它指定的是從一種狀態到另一種狀態的轉移，而不是在可變長度的歷史狀態上操作。
我們可以在每個時間步使用相同引數的相同轉移函式f。

這兩個因素使得學習在所有時間步和所有序列長度上操作單一的模型f 是可能的，而不需要在所有可能時間步學習獨立的模型g(t)。學習單一的共享模型允許泛化到沒有見過的序列長度（沒有出現在訓練集中），並且估計模型所需的訓練樣本遠遠少於不帶引數共享的模型。

迴圈神經網路

基於展開和引數共享的思想，我們可以設計各種迴圈神經網路。

1. 每個時間步都有輸出，並且隱藏單元之間有迴圈連線的迴圈網路

這裡寫圖片描述

我們看一下圖上的RNN的前向傳播公式。這個圖沒有指定隱藏單元的啟用函式。這裡假設使用雙曲正切啟用函式。此外，圖中沒有明確指定何種形式的輸出和損失函式。我們假定輸出是離散的，如用於預測詞或字元的RNN。表示離散變數的常規方式是把輸出o作為每個離散變數可能值的非標準化對數概率。然後，我們可以應用softmax 函式後續處理後，獲得標準化後概率的輸出向量y^。RNN 從特定的初始狀態h(0)開始前向傳播。從t=1到t=τ的每個時間步，我們應用以下更新方程：

a(t)=b+Wh(t−

TensorFlow實戰：Chapter-7上（RNN簡介和RNN在NLP應用)

RNN簡介

序列建模方法：展開計算圖

迴圈神經網路

1. 每個時間步都有輸出，並且隱藏單元之間有迴圈連線的迴圈網路

TensorFlow實戰：Chapter-7上（RNN簡介和RNN在NLP應用)

TensorFlow實戰：Chapter-8上(Mask R-CNN介紹與實現)

TensorFlow實戰：Chapter-4（CNN-2-經典卷積神經網路（AlexNet、VGGNet））

TensorFlow實戰：Chapter-3（CNN-1-卷積神經網路簡介）

TensorFlow實戰：Chapter-6（CNN-4-經典卷積神經網路（ResNet）)

TensorFlow實戰：Chapter-1（TensorFlow介紹）

TensorFlow實戰：Chapter-5（CNN-3-經典卷積神經網路（GoogleNet）)

TensorFlow實戰：Chapter-9下(DeepLabv3+在自己的資料集訓練)

tensorflow實戰：端到端簡單粗暴識別驗證碼（反爬利器）

tensorflow實戰：端到端簡單粗暴識別驗證碼（反爬利器OA信用盤平臺可殺大賠小）

TensorFlow實戰：經典卷積神經網路（AlexNet、VGGNet）

Tensorflow實戰：Word2Vec_Skip_Gram原理及實現（多註釋）

Chapter 7 Integrity（完整性）, Views（視圖）, Security（安全性）, and Catalogs（目錄）

TensorFlow的序列模型程式碼解釋（RNN、LSTM）

tensorflow實戰：MNIST手寫數字識別的優化2-代價函式優化，準確率98%

TensorFlow實戰：TensorFlow中的CNN

程式設計珠璣：第7章（初略估算）的閱讀體會

學習筆記：WinEdt 7.0（Latex）在pdf中顯示中文

機器學習實戰：k-臨近演算法（二）

Java容器（七）：重新認識HashMap（Java1.8和Java1.7中HashMap的差異）

TensorFlow實戰：Chapter-7上（RNN簡介和RNN在NLP應用)

RNN簡介

序列建模方法：展開計算圖

迴圈神經網路

1. 每個時間步都有輸出，並且隱藏單元之間有迴圈連線的迴圈網路

相關推薦