吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--課程筆記

阿新 • • 發佈：2019-01-02

3.1 基礎模型

sequence to sequence

sequence to sequence：兩個序列模型組成，前半部分叫做編碼，後半部分叫做解碼。用於機器翻譯。

image to sequence

sequence to sequence：一個卷積神經網路和一個序列模型組成，前半部分叫做編碼，後半部分叫做解碼。用於圖片描述。

3.2 選擇最可能的句子

語言模型：根據輸入的零向量根據概率預測輸出，一個單詞一個單詞的生成。 $P (y^{< 1 >}, y^{< 2 >}, . . ., y^{< n >})$
機器翻譯：前半部分編碼網路將輸入的句子進行編碼，後半部分解碼網路輸出整個句子的翻譯的多種可能的概率，然後選取最可能的一種。 $P (y^{< 1 >}, y^{< 2 >}, . . ., y^{< n >} | P (x^{< 1 >}, x^{< 2 >}, . . ., x^{< m >}))$

最通用的選取最合適翻譯的演算法是：集束搜尋（Beam Search）

3.3 集束搜尋（Beam search）

基本原理： 每次找出集束寬度(beam width)個詞，往下進行，預測以 X 和已經預測的 Y 的元素為前提下的下一個詞的概率，仍然保留最可能的集束寬度個詞，以此類推，直到完成整個句子的翻譯。

如果集束寬度為1，那麼就是貪婪演算法了，集束搜尋只不過是每次保留三個而不是一個而已。

以法語翻譯成英語的機器翻譯為例

有： $P (y^{< 1 >}, y^{< 2 >} | X) = P (y^{< 1 >} | X) * P (y^{< 2 >} | X, y^{< 1 >})$
- Step 1：輸入 X 編碼網路，通過softmax層計算各個單詞（詞彙表中的所有單詞）輸出的概率值 $P (y^{< 1 >} | X)$ ，通過設定集束寬度（beam width）的大小如3，則取前3個最大輸出概率的單詞，並儲存起來。

Step 2：分別對第一步得到的每一個單詞計算其與單詞表中的所有單片語成詞對的概率 $P (y^{< 2 >} | X, y^{< 1 >})$ 。有3×10000個選擇，（這裡假設詞彙表有10000個單詞），最後再通過beam width大小選擇前3個概率最大的輸出對。

Step 3~Step T：與Step2的過程是相似的，直到遇到句尾符號結束。

3.4 改進集束搜尋

長度歸一化

對於集束搜尋演算法，我們的目標就是最大化下面的概率：

\begin{aligned} a r g m a x_{y} \prod_{t = 1}^{T_{y}} P (y^{< t >} | X, y^{< 1 >}, y^{< 2 >}, . . ., y^{< t - 1 >}) \\ = a r g m a x_{y} P (y^{< 1 >} | X) * P (y^{< 2 >} | X, y^{< 1 >}) * . . . * P (y^{< t >} | X, y^{< 1 >}, y^{< 2 >}, . . ., y^{< t - 1 >}) \end{aligned}

每一項都是小於1的概率值，大量很小的概率值進行相乘，可能會造成數值下溢。

所以在實踐中，一般不會最大化上面這個公式的乘積，而是取log值，變成log求和最大值，得到一個數值上更加穩定的演算法：

a r g m a x_{y} \sum_{t = 1}^{T_{y}} l o g P (y^{< t >} | X, y^{< 1 >}, y^{< 2 >}, . . ., y^{< t - 1 >})

吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--課程筆記

3.1 基礎模型 sequence to sequence sequence to sequence：兩個序列模型組成，前半部分叫做編碼，後半部分叫做解碼。用於機器翻譯。 image to sequence sequence to sequenc

吳恩達Coursera深度學習課程 deeplearning.ai (5-3) 序列模型和注意力機制--程式設計作業(二)：觸發字檢測

Part 2: 觸發字檢測關鍵詞語音喚醒觸發字檢測歡迎來到這個專業課程的最終程式設計任務！在本週的視訊中，你瞭解瞭如何將深度學習應用於語音識別。在本作業中，您將構建一個語音資料集並實現觸發字檢測演算法（有時也稱為關鍵字檢測或喚醒檢測）。觸發字

DeepLearning.ai筆記:(5-3) -- 序列模型和注意力機制

title: ‘DeepLearning.ai筆記:(5-3) – 序列模型和注意力機制’ id: dl-ai-5-3 tags: dl.ai categories: AI Deep Learning date: 2018-10-18 18:39:10

DeepLearning.ai作業:(5-3) -- 序列模型和注意力機制

title: ‘DeepLearning.ai作業:(5-3) – 序列模型和注意力機制’ id: dl-ai-5-3h tags: dl.ai homework categories: AI Deep Learning date: 2018-10-18 1

吳恩達Coursera深度學習課程 deeplearning.ai (4-1) 卷積神經網路--程式設計作業

Part 1：卷積神經網路本週課程將利用numpy實現卷積層(CONV) 和池化層(POOL), 包含前向傳播和可選的反向傳播。變數說明上標[l][l] 表示神經網路的第幾層上標(i)(i) 表示第幾個樣本上標[i][i] 表示第幾個mi

吳恩達Coursera深度學習課程 DeepLearning.ai 程式設計作業——Regularization（2-1.2）

如果資料集沒有很大，同時在訓練集上又擬合得很好，但是在測試集的效果卻不是很好，這時候就要使用正則化來使得其擬合能力不會那麼強。 import numpy as np import sklearn import matplotlib.pyplot as plt

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-2）-- 神經網路基礎

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中，第一部分《神經網路和深度學習》第二週課程部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄，如需學習筆記中捨棄的內容請至Coursera 或者網易雲課堂。同時在閱讀以下

吳恩達Coursera深度學習課程 deeplearning.ai (4-1) 卷積神經網路--課程筆記

本課主要講解了卷積神經網路的基礎知識，包括卷積層基礎（卷積核、Padding、Stride），卷積神經網路的基礎：卷積層、池化層、全連線層。主要知識點卷積核: 過濾器，各元素相乘再相加 nxn * fxf -> (n-f+1)x(n-f+1)

吳恩達Coursera深度學習課程 deeplearning.ai (4-4) 人臉識別和神經風格轉換--課程筆記

Part 1：人臉識別 4.1 什麼是人臉識別？人臉驗證: 輸入圖片，驗證是不是 A 人臉識別: 有一個庫，輸入圖片，驗證是不是庫裡的一員人臉識別難度更大，要求準確率更高，因為1%的人臉驗證錯誤在人臉識別中會被放大很多倍。 4.2 O

吳恩達Coursera深度學習課程 deeplearning.ai (5-1) 迴圈序列模型--程式設計作業(一)：構建迴圈神經網路

Part 1: 構建神經網路歡迎來到本週的第一個作業，這個作業我們將利用numpy實現你的第一個迴圈神經網路。迴圈神經網路(Recurrent Neural Networks: RNN) 因為有”記憶”，所以在自然語言處理(Natural Languag

吳恩達Coursera深度學習課程 deeplearning.ai (5-1) 迴圈序列模型--課程筆記

1.1 為什麼選擇序列模型序列模型的應用語音識別：將輸入的語音訊號直接輸出相應的語音文字資訊。無論是語音訊號還是文字資訊均是序列資料。音樂生成：生成音樂樂譜。只有輸出的音樂樂譜是序列資料，輸入可以是空或者一個整數。情感分類：將輸入的評論句子轉換

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-1）-- 迴圈神經網路

Ng最後一課釋出了，撒花！以下為吳恩達老師 DeepLearning.ai 課程專案中，第五部分《序列模型》第一週課程“迴圈神經網路”關鍵點的筆記。同時我在知乎上開設了關於機器學習深度學習的專欄收錄下面的筆記，以方便大家在移動端的學習。歡迎關

吳恩達Coursera深度學習課程 DeepLearning第一課第二週程式設計作業

最近在學習吳恩達的Deep Learning 系列課程，首先在此對吳老師表示深深的謝意。第一次接觸深度學習方面的知識，更是第一次用程式碼程式設計實現深度學習的演算法。所以在完成老師的作業過程中，遇到很多問題，最終在度孃的幫助下，花了一天的時間，終於把程式設計實現了邏

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(一)：詞向量運算

Part 1: 詞向量運算歡迎來到本週第一個作業。由於詞嵌入的訓練計算量龐大切耗費時間長，絕大部分機器學習人員都會匯入一個預訓練的詞嵌入模型。你將學到：載入預訓練單詞向量，使用餘弦測量相似度使用詞嵌入解決類別問題，比如 “Man is to

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（5-3）-- 序列模型和注意力機制

完結撒花！以下為吳恩達老師 DeepLearning.ai 課程專案中，第五部分《序列模型》第三週課程“序列模型和注意力機制”關鍵點的筆記。同時我在知乎上開設了關於機器學習深度學習的專欄收錄下面的筆記，以方便大家在移動端的學習。歡迎關注我的知

吳恩達Coursera深度學習課程 deeplearning.ai (4-2) 深度卷積網路：例項探究--課程筆記

本課主要講解了一些典型的卷積神經網路的思路，包括經典神經網路的leNet/AlexNet/VGG, 以及殘差網路ResNet和Google的Inception網路，順便講解了1x1卷積核的應用，便於我們進行學習和借鑑。 2.1 為什麼要進行例項探究神經

吳恩達Coursera深度學習課程 deeplearning.ai (2-1) 深度學習實踐--程式設計作業

初始化一個好的初始化可以做到：梯度下降的快速收斂收斂到的對訓練集只有較少錯誤的值載入資料 import numpy as np import matplotlib.pyplot as plt import sklearn impo

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-3）-- 淺層神經網路

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中，第一部分《神經網路和深度學習》第三週課程“淺層神經網路”部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄，如需學習筆記中捨棄的內容請至Coursera 或者網易雲課堂

吳恩達Coursera深度學習課程 deeplearning.ai (4-4) 人臉識別和神經風格轉換--程式設計作業

Part 1：Happy House 的人臉識別本週的第一個作業我們將完成一個人臉識別系統。人臉識別問題可以分為兩類：人臉驗證: 輸入圖片，驗證是不是A 1:1 識別舉例：人臉解鎖手機，人臉刷卡人臉識別: 有一個庫，輸入圖片，驗證是不是庫裡的

吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(二)：Emojify表情包

Part 2: Emojify 歡迎來到本週的第二個作業，你將利用詞向量構建一個表情包。你有沒有想過讓你的簡訊更具表現力？ emojifier APP將幫助你做到這一點。所以不是寫下”Congratulations on the promotion! L