1. 程式人生 > >『 論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

『 論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

來自於論文:《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》

基於attention的encoder-decoder網路在機器翻譯取得成功,本文提出基於attention的網路聯合對齊模型用於IC和SF,在ATIS任務上實現了最先進的效果-ID錯誤率和SF的f1 score。

問題:
attention在seq2seq中用於學習soft對齊同時解碼,本身SF就是對齊的情況下,attention應該如何應用。

前向和後向RNN的hi會丟失長依賴的資訊,通過映入context向量ci,來提供hi沒有捕捉到的長依賴的資訊。對於IC,如果沒有attention,對各個hi使用mean-pooling的方式輸入IC,但加入attention之後,輸入將是hi的加權和。

文章一共介紹了兩種模型:

1、加入Attention機制和對齊機制的RNN編碼器-解碼器模型

image-20181010164930192

1.1 底層特徵:

Embeding

視窗詞向量:

xtd=e(wt)x^d_t = e(w_t)

1.1.1 BiRNN(GRU or LSTM)

ht=RNN(xt,ht1)\overrightarrow{h_t} = \overrightarrow{RNN}(x_t, \overrightarrow{h_{t-1}})

ht=RNN(xt,ht1)\overleftarrow{h_t} = \overleftarrow{RNN}(x_t, \overleftarrow{h_{t-1}})

輸出: ht=[ht,ht]\overleftrightarrow{h_t} = [\overrightarrow{h_t}, \overleftarrow{h_t}]

1.2 attention:

  1. slot filling:

    1. 權重計算:

    (1)ciS=j=1Tαi,jShj, c_i^S = \sum^T_{j=1} \alpha^S_{i,j} h_j,\tag{1}

(2)αi,jS=exp(ei,j)k=1Texp(ej,k) \alpha^S_{i,j} = \frac{exp(e_{i,j})}{\sum_{k=1}^T exp(e_{j,k})} \tag{2}

(3)ei,k=VTσ(WheShk+Wiehi) e_{i,k} = V^T \sigma(W_{he}^S h_k + W_{ie} h_i) \tag{3}

ciSRbsTc_i^S \in R^{bs*T},和hjh_j一致。
ei,kR1e_{i,k} \in R^1ei,ke_{i,k}計算的是hkh_k和當前輸入向量hih_i之間的關係。
作者TensorFlow原始碼WkeShkW_{ke}^S h_k用的卷積實現,而WieShiW_{ie}^S h_i用的線性對映_linear()。
T是attention維度,一般和輸入向量一致,原始碼其實ei,k=reduce_sum(VTσ(WkeShk+Wiehi))e_{i,k} = reduce\_sum(V^T \sigma(W_{ke}^S h_k + W_{ie} h_i)),將其變為1維度,一共T個word,就有T個e。

  1. SF

(4)yiS=softmax(WhyS(hi+ciS)) y_i^S = softmax(W_{hy}^S (h_i+c_i^S)) \tag{4}

  1. Intent Prediction:其輸入時BiLSTM的最後一個單元的輸出hTh^T以及其對應的context向量。
    (5)yI=softmax(WhyI(hT+cI)) y^I = softmax(W_{hy}^I (h_T+c^I)) \tag{5}

2、加入Attention機制的RNN模型。

image-20181010153943164

計算和模型1類似,公式不在列出。

實驗結果:

model ic error slot F1
Attention Encoder-Decoder NN 1.57 95.87
Attention BiRNN 1.79 95.98

詞槽抽取的實驗結果比目前最好的要好0.1%左右。
意圖識別的實驗結果比目前最好的要提高1%左右。

Conclusions

獲得了stae of the art的表現,但是沒有指出未來的點,以及一些可能會有的問題,

個人認為資料集問題,有待在更大更多資料集驗證效果,例如ATIS資料量其實還是比較小,一共4478+500+893,對於百分點的提升有一定的隨機性,有待統計假設檢驗驗證等。(其實模型還是挺靠譜的,只是實驗還可以做得更嚴謹)

Reference