1. 程式人生 > >[深度學習]Machine Comprehension機器閱讀中Attention-based Model注意力機制論文集合

[深度學習]Machine Comprehension機器閱讀中Attention-based Model注意力機制論文集合

目錄

 

機器閱讀概念

論文集合

網路結構比較


機器閱讀概念

所謂機器閱讀理解任務,指的就是給一段context描述,然後對應的給一個query,然後機器通過閱讀context後,給出對應query的答案。這裡做了一個假設,就是query的答案必須是能夠在context原文中找到的一段話(也可以理解為連續的幾個單詞),也就是說最終模型預測的目標是輸出兩個下標,分別對應於query回答在context的開始位置和結束位置。最後模型的損失函式為多分類的交叉熵softmax(因為從本質上來講該問題等效為一個多分類問題,問題的類別數等於context中單詞的數量,也就是每一個單詞都有可能作為answer的開始)。
 

論文集合

論文名稱:《End-To-End Memory Networks》

論文地址:https://arxiv.org/pdf/1503.08895.pdf

論文程式碼:https://github.com/fchollet/keras/blob/master/examples/ba bi_memnn.py

針對Memory Networks無法端到端訓練的弊端,提出了End-To-End Memory Networks,可以端到端訓練,減少訓練監督。增加了注意力機制,並且使用了RNNsearch中的multiple computational steps (hops)。hops的作用是增強模型的推理能力。

 

論文名稱:《ReasoNet: Learning to Stop Reading in Machine Comprehension》

論文地址:https://arxiv.org/pdf/1609.05284.pdf

與在推理期間使用固定hops的先前方法不同,ReasoNets引入終止狀態以放寬對推理深度的這種約束。 通過使用強化學習,ReasoNets可以在消化中間結果後動態確定是繼續理解過程,還是在得出現有資訊足以產生答案時終止閱讀。 ReasoNets在機器理解資料集中實現卓越效能。

論文名稱:《R-NET: MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS》

論文地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/05/r-net.pdf

論文程式碼:https://github.com/unilight/R-NET-in-Tensorflow

首先將問題和短文與gated attention-based recurrent networks基於門控注意力的遞迴網路進行匹配,得到問題感知的短文表示。然後提出了一種self-matching attention mechanism自匹配的注意機制,通過對文章本身進行匹配來優化表現形式,從而有效地對整個文章的資訊進行編碼。最後,使用pointer networks指標網路來定位文章中答案的位置。

 

論文名稱:《BI-DIRECTIONAL ATTENTION FLOW FOR MACHINE COMPREHENSION》

論文地址:https://arxiv.org/pdf/1611.01603.pdf

BI-DIRECTIONAL ATTENTION FLOW(BIDAF)網路是一個多階段的分層過程,它表示不同粒度的上下文,並使用雙向注意流機制來獲得查詢感知的上下文表示,而不需要進行早期總結。BIDAF包括字元級,字級和上下文嵌入,並使用雙向注意流來獲得查詢感知上下文表示。 我們的注意機制對以前流行的注意範例提供了以下改進。

首先,我們的注意層不用於將上下文段落概括為固定大小的向量。 相反,計算每個時間步的注意力,並且允許每個時間步的有人蔘與向量以及來自先前層的表示流到下一個建模層。 這減少了早期摘要引起的資訊丟失。

其次,我們使用memory-less無記憶的注意機制。 也就是說,雖然我們像Bahdanau等人那樣通過時間迭代地計算注意力。 (2015),每個時間步的注意力僅是當前時間步的查詢和上下文段落的函式,並不直接依賴於前一時間步的注意力。我們假設這種簡化會導致注意層和建模層之間的分工。它迫使關注層專注於學習查詢和上下文之間的關注,並使建模層專注於學習查詢和上下文之間的互動查詢感知上下文表示(注意層的輸出)。它還允許在每個時間步驟中的注意力不受之前時間步驟中的錯誤出席的影響。我們的實驗表明,與動態注意力相比,無記憶注意力具有明顯的優勢。

第三,我們在兩個方向上都使用了注意力機制,查詢到上下文和上下文到查詢,它們相互提供互補的資訊。

論文名稱:《FusionNet: Fusing via Fully-Aware Attention with Application to Machine Comprehension》

論文地址:https://arxiv.org/pdf/1711.07341.pdf

本文介紹了一種新的神經結構FusionNet,它從三個方面擴充套件了現有的注意方法。首先,提出了一個新穎的“history of word”概念,將注意力資訊從最低的詞層面嵌入到最高的語義層面表徵。其次,介紹了一種改進的注意力評分功能,更好地利用了“history of word”的概念。第三,提出了一種全意識的多層次注意機制,在文字(如問題)中獲取完整資訊,並在對應文字中加以利用。

網路結構比較