Attention機制學習（二）使用

阿新 • • 發佈：2018-12-15

前言

前一篇部落格簡要的介紹了一下傳統的attention機制的基本思想，
本篇部落格解讀使用attention機制做機器翻譯的第一篇論文，通過這篇論文看attention的使用方法。
論文：
NEURAL MACHINE TRANSLATION
BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
論文地址：https://arxiv.org/pdf/1409.0473.pdf

論文motivation

這篇論文的motivation，就是在說attention之前的Encoder-Decoder機器翻譯模型有一個明顯的缺點：傳統模型將源句子的所有資訊都壓縮成一個固定長度的向量，這樣做的缺點是當句子長度很長的時候，模型無法利用句子前面部分的有效資訊。換句話說，句子長了原來的技術都不好使了。
於是他們就提出了往Encoder-Decoder裡面加入Attention機制的想法，加入這種想法以後模型可以同時學習如何進行翻譯以及進行對齊。
如何進行翻譯，大家都知道是啥意思。
那如何進行對齊是啥意思呢？其實這個就是Attention機制了。
還是上文那個例子：
源句： Tom chase Jerry.
翻譯結果：湯姆追逐傑瑞
我們可以看到，譯文結果“湯姆”實際是對齊與“Tom”的，“追逐”對齊與chase。這個對齊，並不是唯一，因為翻譯的時候肯定不是一個個對齊就能翻譯好的。它其實是更想表達：譯文“湯姆” 主要是根據“Tom”得到的，注意這裡是“主要” 是一個高權值的思想。
於是這篇論文就是通過這種對齊來體現它的attention.

老生常談

在Encoder-coder 模型框架裡面，encoder複製先輸入的句子的各個詞的詞向量，然後把它們壓縮成一個句向量 $c$ 。如果encoder和decoder都是使用rnn的話，就可以表示成：
$c = q$

( h 1 , h 2 ,

… , h T x ) c=q({h_{1},h_{2},\dots,h_{T_{x}}})

c = q (h_{1}, h_{2}, \dots, h_{T_{x}})

其中

h_{i}=f(h_{i-1},x_{i})

,它是每個時間步iRNN隱藏層。

x是輸入的各個詞的詞向量
$X=(x_{1},x_{2},\dots,x_{T_{x}})$ .

$f,q$ 是非線性啟用函式。通常，人們取 $c=h_{T_{x}}$ ,表示拿RNN的最後一個時間步的隱藏層輸出作為句向量。
然後翻譯的話就是在目標語言中，找到一個詞串，使得下面的條件概率最大：
$p(y)=p(y_{1},y_{2},\dots,y_{T}|c)=p(y_{1}|c)p(y_{2}|\{y_{1},c \})p(y_{3}|\{y_{1},y_{2},c \})\dots=\prod ^{t=T}_{t=1}p(y_{t}|\{y_{1},y_{2},\dots,y_{t-1},c\})$
其中 $y=\{y_{1},y_{2},y_{3},\dots,y_{T}\}$ 是翻譯結果, $T$ 是翻譯結果的長度。
其中使用到的條件概率公式可以巨集觀的表示為： $p(y_{t}|\{y_{1},y_{2},\dots,y_{t-1},c\})=g(y_{t-1},s_{t},c)$ 。g是一個勢能函式， $y_{t-1}$ 是上一步的輸出， $s_{t}$ 是decoder部分的rnn的隱藏層向量，而 $c$ 就是輸入句子的句向量。

以上是老生常談的東西，使用一些符號來方便下面講述attention.

核心的東西來啦

注意到在翻譯的時候的，對於任意一個時間步 $i\in \{1,2,\dots,T\}$ ,

條件概率 $p(y_{i}|\{y_{1},y_{2},\dots,y_{i-1},c\})=g(y_{i-1},s_{i},c)$ 輸入的 $c$ 是固定的。

這樣是不好的，於是作者就提出了每個時間步， $c_{i}$ 是可以不同的想法。

把條件概率改寫成：
$p (y_{i} ∣ {y_{1}, y_{2}, \dots, y_{i - 1}, c}) = g (y_{i - 1},$

Attention機制學習（二）使用

前言

論文motivation

老生常談

核心的東西來啦

Attention機制學習（二）使用

Attention機制學習（一）傳統Attention機制

Spring學習之Spring三種裝配機制：（二）顯示裝配bean

爬蟲庫之BeautifulSoup學習（二）

cocos2dx 3.1從零學習（二）——菜單、場景切換、場景傳值

redis學習（二）——String數據類型

Linux 網卡驅動學習（二）（網絡驅動接口小結）

【原創】源碼角度分析Android的消息機制系列（二）——ThreadLocal的工作過程

ext2文件系統學習（二）—— 目錄磁盤結構

RabbitMQ學習（二）工作隊列

JAVA學習（二） String使用equals方法和==分別比較的是什麽？（轉）

CSS學習（二）

Struts2學習（二）運行Action中方法的三種方式

python 命令行參數學習（二）

【轉】JMeter學習（二）錄制腳本

算法學習（二）

SpringMVC源代碼學習（二）FrameworkServlet內處理請求的流程

Linux學習（二）之內核、系統調用、庫

JS學習（二）

linux學習（二）——湯哥的推薦書籍

Attention機制學習（二）使用

前言

論文motivation

老生常談

核心的東西來啦

相關推薦