1. 程式人生 > >論文筆記-Neural Machine Translation by Jointly Learning to Align and Translate

論文筆記-Neural Machine Translation by Jointly Learning to Align and Translate

tps idt 個人理解 att date eight default con ati

提出attention機制,用於機器翻譯。

背景:基於RNN的機器翻譯

基本思路是首先對語言x進行編碼encoder,然後解碼decoder為語言y。encoder和decoder可以看做兩層RNN? 編碼的隱藏層h和解碼的隱藏層s

RNN encoder-decoder :

1)對輸入的sentence,表示為技術分享圖片,通過循環層得到隱藏層 技術分享圖片,將向量c表示為隱藏層的函數,c即為輸入encode出來的向量。

技術分享圖片

2)接下來是decoder階段,根據之前預測的翻譯單詞以及輸入的encoder技術分享圖片 來預測下一個單詞

技術分享圖片

本文的創新:

對(2)式的條件概率進行改寫,對每個yi,context的encoder各異,記為ci

技術分享圖片

關於ci的計算:ci表示成一系列hi的線性加權,這裏的hi是encoder端的隱藏層,定義為annotation,hi(個人理解)為輸入的第i個詞附近的information(簡單的說就是輸入端i的表示)

技術分享圖片

alpha系數:

技術分享圖片

alpha或者說e代表了第j個輸入詞的annotation與decoder端第i-1個隱藏狀態的importance,這樣得到的ci會對某些位置pay attention,等價地可以看做翻譯詞i對原始輸入某些位置pay attetnion

技術分享圖片

使用BiRNN:

本文使用雙向RNN來catch住向前、向後的hi拼接到一起,這樣的annotation更能個表征輸入詞i周圍的信息。

網絡結構:

技術分享圖片

論文筆記-Neural Machine Translation by Jointly Learning to Align and Translate