『 論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling
來自於論文:《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》
基於attention的encoder-decoder網路在機器翻譯取得成功,本文提出基於attention的網路聯合對齊模型用於IC和SF,在ATIS任務上實現了最先進的效果-ID錯誤率和SF的f1 score。
問題:
attention在seq2seq中用於學習soft對齊同時解碼,本身SF就是對齊的情況下,attention應該如何應用。
前向和後向RNN的hi會丟失長依賴的資訊,通過映入context向量ci,來提供hi沒有捕捉到的長依賴的資訊。對於IC,如果沒有attention,對各個hi使用mean-pooling的方式輸入IC,但加入attention之後,輸入將是hi的加權和。
文章一共介紹了兩種模型:
1、加入Attention機制和對齊機制的RNN編碼器-解碼器模型
1.1 底層特徵:
Embeding
視窗詞向量:
1.1.1 BiRNN(GRU or LSTM)
輸出:
1.2 attention:
-
slot filling:
- 權重計算:
,和一致。
,計算的是和當前輸入向量之間的關係。
作者TensorFlow原始碼用的卷積實現,而用的線性對映_linear()。
T是attention維度,一般和輸入向量一致,原始碼其實,將其變為1維度,一共T個word,就有T個e。
- SF
- Intent Prediction:其輸入時BiLSTM的最後一個單元的輸出以及其對應的context向量。
2、加入Attention機制的RNN模型。
計算和模型1類似,公式不在列出。
實驗結果:
model | ic error | slot F1 |
---|---|---|
Attention Encoder-Decoder NN | 1.57 | 95.87 |
Attention BiRNN | 1.79 | 95.98 |
詞槽抽取的實驗結果比目前最好的要好0.1%左右。
意圖識別的實驗結果比目前最好的要提高1%左右。
Conclusions
獲得了stae of the art的表現,但是沒有指出未來的點,以及一些可能會有的問題,
個人認為資料集問題,有待在更大更多資料集驗證效果,例如ATIS資料量其實還是比較小,一共4478+500+893,對於百分點的提升有一定的隨機性,有待統計假設檢驗驗證等。(其實模型還是挺靠譜的,只是實驗還可以做得更嚴謹)