1. 程式人生 > >Multiway Attention Networks for Modeling Sentence Pairs

Multiway Attention Networks for Modeling Sentence Pairs

Multiway Attention Networks for Modeling Sentence Pairs

模型架構:

Alt text

總體思想:

將query資訊通過不同形式的attention加入到answer中,對answer進行query感知的建模,從而進行預測

1.資料輸入

使用word embedding和language model表示的contextual embedding拼接表示,使用雙向GRU對句子進行建模
Alt text

2.相似度計算

以上標c,b,d,m表示兩個句子P和Q的雙向GRU表示之間進行四種相似度計算,並且作為4種attention對於 Q 進行帶權重的表示


Alt text

3.聚合(Aggregation)

(1)拼接Q 的combination attention表示 q t c q_t^c P 在 t 時刻的隱狀態 h

t p h_t^p (常規attention形式)
通過gate機制,進行資訊篩選
Alt text
(2)而後使用GRU進行序列的再次表示
Alt text
Alt text
即對上面拼接後的向量,再一次用GRU進行表示,四個attention有四種這樣的表示
(3)再一次使用attention,進行四種attention帶權重的組合 v
a v_a
為引數(這個有點不懂)
Alt text
(4)整合後的表示,再一次使用GRU進行建模
Alt text
Alt text

4.預測層

(1)對 Q 進行一個注意力再表示,引入引數 v q v^q
Alt text
(2)對 Q 的表示與 P 的表示進行attention
Alt text
最後將 r p r_p 送入MLP