吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-3）-- 序列模型和注意力機制

完結撒花！以下為吳恩達老師 DeepLearning.ai 課程專案中，第五部分《序列模型》第三週課程“序列模型和注意力機制”關鍵點的筆記。

同時我在知乎上開設了關於機器學習深度學習的專欄收錄下面的筆記，以方便大家在移動端的學習。歡迎關注我的知乎：大樹先生。一起學習一起進步呀！^_^

序列模型 — 序列模型和注意力機制

1. 基礎模型

sequence to sequence 模型：

sequence to sequence 模型最為常見的就是機器翻譯，假如這裡我們要將法語翻譯成英文：

輸入：x<1>，x<2>，⋯，x<Tx>；這裡每個x

<t>均為對應法語句子中的每個單詞；
輸出：y<1>，y<2>，⋯，y<Ty>；這裡每個y<t>均為對應英語句子中的每個單詞；
網路結構：many-to-many RNN網路結構。

對於機器翻譯的序列對序列模型，如果我們擁有大量的句子語料，則可以得到一個很有效的機器翻譯模型。模型的前部分使用一個編碼網路來對輸入的法語句子進行編碼，後半部分則使用一個解碼網路來生成對應的英文翻譯。網路結構如下圖所示：

相關論文：

Sutskever et al., Sequence to sequence learning with neural networks, 2014;

Cho et al., Learning phrase representation using RNN encoder-decoder for statistical machine translation, 2014;

image to sequence 模型：

與上面的這種編解碼類似的還有就是影象描述的應用。

輸入：影象；
輸出：描述影象的句子；
網路結構：CNN結構學習影象的編碼，RNN結構解碼輸出對應的句子。

對於影象描述的網路結構如下圖所示：

相關論文：

Mao et. al., 2014. Deep captioning with multimodal recurrent neural networks；

Vinyals et. al., 2014. Show and tell: Neural image caption generator；
Karpathy and Li, 2015. Deep visual-semantic alignments for generating image descriptions；

2. 挑選最可能的句子

機器翻譯：條件語言模型

對於機器翻譯來說和之前幾節介紹的語言模型有很大的相似性但也有不同之處。

在語言模型中，我們通過估計句子的可能性，來生成新的句子。語言模型總是以零向量開始，也就是其第一個時間步的輸入可以直接為零向量；
在機器翻譯中，包含了編碼網路和解碼網路，其中解碼網路的結構與語言模型的結構是相似的。機器翻譯以句子中每個單詞的一系列向量作為輸入，所以相比語言模型來說，機器翻譯可以稱作條件語言模型，其輸出的句子概率是相對於輸入的條件概率。

二者對比如下圖所示：

尋找最大的概率輸出：

還是以法語翻譯英語為例，通過輸入的法語句子，模型將會告訴我們各種英文句子輸出所對應的可能性，如下圖中的句子所示。

對於各種可能的翻譯結果，我們並不是要從得到的分佈中進行隨機取樣，而是要找到一個使得條件概率最大化的英文句子作為輸出。所以在設計機器翻譯模型的時候，一個重要的步驟就是設計一個合適的演算法，找到使得條件概率最大化的的結果。目前最通用的演算法就是：束搜尋（Beam Search）。

不使用貪心搜尋的原因：

對於我們的機器翻譯模型來說，使用貪心搜尋演算法，在生成第一個詞的分佈後，貪心搜尋會根據我們的條件語言模型挑選出最有可能輸出的第一個詞語，然後再挑選出第二個最有可能的輸出詞語，依次給出所有的輸出。

但是對於我們建立的機器翻譯模型來說，我們真正需要的是通過模型一次性地挑選出整個輸出序列：y<1>，y<2>，⋯，y<Ty>，來使得整體的概率最大化。所以對於貪心搜尋來說，這種方法對於機器翻譯來說是不可行的。

另外對於貪心搜尋演算法來說，我們的單詞庫中有成百到千萬的詞彙，去計算每一種單詞的組合的可能性是不可行的。所以我們使用近似的搜尋辦法，使得條件概率最大化或者近似最大化的句子，而不是通過單詞去實現，雖然不能保證我們得到的就是條件概率最大化的結果，但是往往這已經足夠了。

3. 集束搜尋（Beam search）

Beam search 演算法：

這裡我們還是以法語翻譯成英語的機器翻譯為例：

Step 1：對於我們的詞彙表，我們將法語句子輸入到編碼網路中得到句子的編碼，通過一個softmax層計算各個單詞（詞彙表中的所有單詞）輸出的概率值，通過設定集束寬度（beam width）的大小如3，我們則取前3個最大輸出概率的單詞，並儲存起來。

Step 2：在第一步中得到的集束寬度的單詞數，我們分別對第一步得到的每一個單詞計算其與單詞表中的所有單片語成詞對的概率。並與第一步的概率相乘，得到第一和第二兩個詞對的概率。有3×10000個選擇，（這裡假設詞彙表有10000個單詞），最後再通過beam width大小選擇前3個概率最大的輸出對；

Step 3~Step T：與Step2的過程是相似的，直到遇到句尾符號結束。

4. 集束搜尋的改進

長度歸一化：

對於集束搜尋演算法，我們的目標就是最大化下面的概率：

上面的得到的每一項一般都是很小的概率值，大量很小的概率值進行相乘，最後會得到更小的值，可能會造成數值下溢。所以在實踐中，我們不會最大化上面這個公式的乘積，而是取log值，變成log求和最大值，得到一個數值上更加穩定的演算法，公式如下：

argmaxy∑y=1TylogP(y<t>|x,y<1>,…,y<t−1>)

另外，我們還可以通過對上面的目標進行歸一化，使其得到更好的效果。相比直接除以輸出單詞長度的值，可以使用更加柔和的方式：在Ty上加上一個指數α，如α=0.7，通過調整其大小獲得更加好的效果。

1Tαyargmaxy∑y=1TylogP(y<t>|x,y<1>,…,y<t−

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-3）-- 序列模型和注意力機制

序列模型 — 序列模型和注意力機制

1. 基礎模型

2. 挑選最可能的句子

3. 集束搜尋（Beam search）

4. 集束搜尋的改進

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-3）-- 序列模型和注意力機制

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-1）-- 迴圈神經網路

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-3）-- 淺層神經網路

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-2）-- 神經網路基礎

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-4）-- 深層神經網路

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（4-2）-- 深度卷積模型

Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-2）-- 神經網路基礎

吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--程式設計作業(二)：觸發字檢測

吳恩達Coursera深度學習課程 deeplearning.ai (4-1) 卷積神經網路--程式設計作業

吳恩達Coursera深度學習課程 DeepLearning.ai 程式設計作業——Regularization（2-1.2）

吳恩達Coursera深度學習課程 deeplearning.ai (4-1) 卷積神經網路--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (4-4) 人臉識別和神經風格轉換--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (5-1) 迴圈序列模型--程式設計作業(一)：構建迴圈神經網路

吳恩達Coursera深度學習課程 deeplearning.ai (5-1) 迴圈序列模型--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(一)：詞向量運算

吳恩達Coursera深度學習課程 deeplearning.ai (4-2) 深度卷積網路：例項探究--課程筆記

吳恩達Coursera深度學習課程 deeplearning.ai (2-1) 深度學習實踐--程式設計作業

吳恩達Coursera深度學習課程 deeplearning.ai (4-4) 人臉識別和神經風格轉換--程式設計作業

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(二)：Emojify表情包

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-3）-- 序列模型和注意力機制

序列模型 — 序列模型和注意力機制

1. 基礎模型

2. 挑選最可能的句子

3. 集束搜尋（Beam search）

4. 集束搜尋的改進

相關推薦