1. 程式人生 > >【論文筆記09】Teaching Machines to Read and Comprehend

【論文筆記09】Teaching Machines to Read and Comprehend

本文主要做出了兩個大的貢獻:

  • 給出了閱讀理解資料集的構造方法,並開源了兩個閱讀理解資料集;
  • 提出了三種神經網路模型作為baseline,以方便後面的研究者進行相關的研究。

1 資料構造

主要是從新聞網站中抓取新聞作為文章,新聞的摘要去掉一個實體詞成為query,被去掉的單詞作為答案。為了防止模型對訓練資料的過度依賴,於是將文章和問題中的實體進行匿名化和隨機替換。具體見官方教程

2 三種神經網路模型

(1) Deep LSTM

Deep LSTM
從上圖的結構可以看到,主要是將文章和問題進行拼接(doc|||query 或者 query||| doc),實際上都是看成一個長文字,通過多層LSTM編碼,得到最後的隱藏層狀態,進而進行後面的任務。

(2)Attentive Reader

Attentive Reader
這個模型將document和query分開表示,其中query部分採用了問題表示法的模型三,就是用了一個雙向LSTM來encode,然後將兩個方向上的last hidden state拼接作為query的表示;document這部分採用文章表示法的模型二,也就是通過單詞語義向量表示文章整體語義,即用一個雙向的LSTM來對文章進行編碼,每個token的表示是用兩個方向上的hidden state拼接而成,document的表示則是用document中所有token的加權平均來表示,這裡的權重就是attention,權重越大表示回答query時對應的token的越重要。最後利用g函式來處理文章語義和問題語義。

(3)Impatient Reader

Impatient Reader
這個模型在Attentive Reader模型的基礎上更細了一步,即每個query token都與document tokens有關聯,而不是像之前的模型將整個query考慮為整體。具體來說,文章還是採用的文章表示法模型二,而query中每處理一個單詞後,都用問題表示法的模型三來對當前問題序列進行整體語義表示,這個過程就好像是你讀query中的每個token都需要找到document中對應相關的token。

3 小結

這篇論文作為閱讀理解任務上的經典論文,對這個領域後來的發展推進作用挺大的。這兩個資料集目前是這個領域常用的資料集;三種神經網路模型也是後面提出來的哪些模型的基礎。另外,張俊林博士總結的常用文章和問題表示法真的非常清晰,已看網路結構就大概知道用的什麼表示方法了。

參考文獻