EMNLP2018論文解讀:利用篇章資訊提升機器翻譯質量
《使用篇章上下文提升 Transformer 翻譯模型》 是搜狗和清華大學天工研究院合作發表在 EMNLP 2018 的工作。機器翻譯在搜狗公司的多個產品線得到廣泛應用,包括搜狗英文搜尋、搜狗輸入法、搜狗翻譯 APP、搜狗旅行翻譯寶等。許多產品場景下,都需要使用句子的上下文資訊來幫助翻譯。

論文連結:PaperWeekly
原始碼連結: ofollow,noindex">Glaceon31/Document-Transformer
為此, 我們提出了一個基於自注意力翻譯模型 Transformer 的篇章級別翻譯模型,利用豐富的上下文資訊來幫助進行句子的翻譯。 與此同時,該模型對機器翻譯領域篇章級別翻譯質量的提升也有貢獻。
篇章翻譯可以解決機器翻譯中的上下文依賴等問題,是機器翻譯的重要研究問題,也是今年的一個熱點,我們的模型是在 Transformer 效果上最好的之一。
論文方法
已有的考慮篇章上下文的 NMT 工作主要存在以下幾個問題:
1. 大多數方法是基於迴圈神經網路的翻譯模型 RNNsearch 的,無法移植到最新的基於自注意力的翻譯模型 Transformer 上;
2. 大多數只在解碼器端利用篇章上下文資訊,而沒有在源端編碼時使用;
3. 只能使用篇章級別的語料進行訓練,但是篇章級別的語料規模比句級別語料小的多。
我們針對以上幾個問題進行改進。首先先在建模方面,我們 通過在自注意力模型上新增模組來融入篇章上下文資訊 (圖 1),其中紅色部分是我們新增的模組。最左邊這一列是上下文編碼器,其輸入是源端待翻譯的句子同一個文件中的前 k 個句子。上下文編碼器是一個多層結構,每一層都包含一個自注意力層和一個前向層(類似於 Transformer 的編碼器)。

但是在實驗中我們發現,上下文編碼器只用 1 層就達到了很好的效果,使用更多層不僅不能得到更好的效果,還會對模型的計算效率產生負面影響。接下來, 我們使用 multi-head 注意力機制將得到的篇章上下文的隱層表示同時融入到源端編碼器和解碼器中 。我們將此稱為上下文注意力(Context Attention)。
為了得到更好的模型,我們採用了 兩步訓練法 來利用充足的句級別語料。第一步,我們 使用所有可用語料(包括句級別和篇章級別)訓練一個標準的自注意力翻譯模型 。第二步,我們再 使用篇章級別的語料訓練我們加入的模組 。在這一步,我們會凍結其他引數,防止模型在較小規模的篇章級別語料上過擬合。
實驗結果
實驗(表 1)表明,我們的方法顯著好於 Transformer 和基於 RNNsearch 的篇章翻譯模型。

#投 稿 通 道#
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是 最新論文解讀 ,也可以是 學習心得 或 技術乾貨 。我們的目的只有一個,讓知識真正流動起來。
:memo: 來稿標準:
• 稿件確係個人 原創作品 ,來稿需註明作者個人資訊(姓名+學校/工作單位+學歷/職位+研究方向)
• 如果文章並非首發,請在投稿時提醒並附上所有已釋出連結
• PaperWeekly 預設每篇文章都是首發,均會新增“原創”標誌
:mailbox_with_mail: 投稿方式:
• 方法一:在PaperWeekly知乎專欄頁面點選“投稿”,即可遞交文章
• 方法二:傳送郵件至: [email protected] ,所有文章配圖,請單獨在附件中傳送
• 請留下即時聯絡方式(微信或手機),以便我們在編輯釋出時和作者溝通
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選 「交流群」 ,小助手將把你帶入 PaperWeekly 的交流群裡。
加入社群: http:// paperweek.ly
微信公眾號:PaperWeekly