深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

說明：本文為斯坦福大學CS224d課程的中文版內容筆記，已得到斯坦福大學課程@Richard Socher教授的授權翻譯與發表

1.語言模型

語言模型用於對特定序列的一系列詞彙的出現概率進行計算。一個長度為m的詞彙序列{w1,…,wm}的聯合概率被表示為P(w1,…,wm)。由於在得到具體的詞彙之前我們會先知道詞彙的數量，詞彙wi的屬性變化會根據其在輸入文件中的位置而定，而聯合概率P(w1,…,wm)的計算通常只考慮包含n個字首詞的詞視窗而非考慮全部的字首詞：

P(w1,…,wm)=∏i=1i=mP(wi|w1,…,wi−1)≈∏i=1i=mP(wi|wi−(n−1),…,wi−1)(1)

公式1在語音識別和機器翻譯系統中對判定一組詞序列是否為相應輸入序列的正確生成結果有著極為重要的作用。在一個給定的機器翻譯系統中，針對各個短語或句子的翻譯任務，軟體通常被要求生成一組替代詞序列（例如：“我已經”；“我曾有”；“我有”；“被我已經”；“被我佔有”）以及它們的得分以判定它們是否能組成最優的翻譯序列。

在機器翻譯任務中，模型通過計量和比較各個替換輸出詞序列之間的得分優劣，從它們中為輸入短語尋找最佳的答案詞序列。為了完成這項工作，模型需要經常在詞排序和詞選擇兩個任務模型之間切換。而上面提到的目標將通過為所有的候選詞序列設定概率計算函式而達成，這個函式將比較這些候選詞序列各自的得分。獲得最高得分的候選詞序列就是機器翻譯任務的輸出。例如：相比例句“小的這隻貓真是”

，機器會給例句“這隻貓真小”更高的評分，相比“放學後步行去房子”，“放學後步行回家”會得到更高的得分。為了計算這些概率，將比較統計n元語言模型和詞頻模型的效果。比如，如果選擇2元語言模型，語義2元組的詞頻通過統計當前詞和其前面一個詞，這就需要與1元語法模型的詞頻計算方法區分開來。公式2和3分別展示了2元語義模型和3元語義模型在處理這種關係時的做法。

p(w2|w1)=count(w1,w2)count(w1)(2)
p(w3|w1,w2)=count(w1,w2,w3)count(w1,w2)(3)

公式3中表現出來的關係集中於基於上下文中固定視窗內容（例如：n個字首詞範圍）對後續詞的預測。在某些情況下，僅僅抽取n

個字首詞作為視窗範圍可能不足以很好地捕捉上下文資訊。例如，當一篇文章在後段著重描寫西班牙與法國的歷史，而在前文中，當你讀到“這兩個國家走向了戰爭”這句話時，僅有此句的前文顯然不能夠讓我們識別出這兩個國家的命名實體。Bengio等人提出了第一個大規模的深度學習自然語言處理框架，此框架能夠通過學習得到詞彙的分佈化表徵捕捉上面提到的這種上下文關係；圖1展示了這種神經網路的框架。在這個模型中，輸入詞向量在隱層和輸出層均得到使用。公式4展示了引入標準tanh()函式的softmax()分類函式中的各個引數，這個函式起到線性分類器的作用，W(3)x+b(3),這一組短式代表全體字首詞的輸入詞向量。

y^=softmax(W(2)tanh(W(1)x+b(1))+W(3)x+b(3))(4)
然而，在所有傳統的語言模型中，由於包含n長視窗的語言記憶資訊規模會隨著系統的執行呈指數式的增長，所以面對較大型的詞視窗，如果不將記憶資訊單獨抽離處理，上面的任務幾乎是不可能完成的。

圖1

2.遞迴神經網路（RNN）

不同於傳統的機器翻譯模型僅僅考慮有限的字首詞彙資訊作為語義模型的條件項，遞迴神經網路（RNN）有能力將語料集中的全部前序詞彙納入模型的考慮範圍。
圖2展示了RNN模型的架構，其中各個垂直矩形框代表每輪迭代的隱層，t.每個這樣的隱層都擁有若干神經元，每個神經元都對輸入向量執行線性矩陣操作而通過非線性操作輸出結果（例如，tanh()函式）。在每一輪迭代中，前一步迭代的輸出隨著文件中下一條詞彙的詞向量而變化，xt，是隱層的輸入且隱層將產生預測輸出值y^和提供給下一層隱層的輸出特徵向量ht（見公式5和公式6）。單獨每個神經元的輸入和輸出情況如圖3所示。

圖2
ht=σ(W(hh)ht−1+W(hx)x[t])(5)

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

1.語言模型

2.遞迴神經網路（RNN）

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

深度學習與自然語言處理(8)_斯坦福cs224d RNN，MV-RNN與RNTN

深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第十課神經機器翻譯（neural machine translation）與attention模型

車萬翔《基於深度學習的自然語言處理》中英文PDF+塗銘《Python自然語言處理實戰核心技術與算法》PDF及代碼

如何用深度學習做自然語言處理？這裡有份最佳實踐清單

斯坦福cs224d（深度學習在自然語言處理上的應用）Lecture 2 note2

深度學習和自然語言處理的應用和脈絡1-基礎

深度學習在自然語言處理中的應用（一）

深度學習和自然語言處理中的attention和memory機制

深度學習在自然語言處理中的應用綜述

深度學習在自然語言處理中的應用: 集智俱樂部活動筆記

《基於深度學習的自然語言處理》中文PDF+英文PDF+學習分析

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

《用Python進行自然語言處理》第 1 章語言處理與 Python

Amazon Comprehend 自然語言處理 (NLP) _自然語言理解

如何用深度學習玩轉影象處理

自然語言處理(NLP) 三：詞袋模型 + 文字分類

臺灣大學深度學習課程學習筆記 Lecture 5-1: Gated RNN（LSTM與GRU介紹）

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

1.語言模型

2.遞迴神經網路（RNN）

相關推薦