『論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

阿新 • • 發佈：2019-02-09

來自於論文：《Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling》

基於attention的encoder-decoder網路在機器翻譯取得成功，本文提出基於attention的網路聯合對齊模型用於IC和SF，在ATIS任務上實現了最先進的效果-ID錯誤率和SF的f1 score。

問題：
attention在seq2seq中用於學習soft對齊同時解碼，本身SF就是對齊的情況下，attention應該如何應用。

前向和後向RNN的hi會丟失長依賴的資訊，通過映入context向量ci，來提供hi沒有捕捉到的長依賴的資訊。對於IC，如果沒有attention，對各個hi使用mean-pooling的方式輸入IC，但加入attention之後，輸入將是hi的加權和。

文章一共介紹了兩種模型：

1、加入Attention機制和對齊機制的RNN編碼器-解碼器模型

1.1 底層特徵：

Embeding

視窗詞向量：

$x^d_t = e(w_t)$

1.1.1 BiRNN(GRU or LSTM)

$\overrightarrow{h_t} = \overrightarrow{RNN}(x_t, \overrightarrow{h_{t-1}})$

$\overleftarrow{h_t} = \overleftarrow{RNN}(x_t, \overleftarrow{h_{t-1}})$

h_{t} = R N N (x_{t}, h_{t - 1})

輸出： $\overleftrightarrow{h_t} = [\overrightarrow{h_t}, \overleftarrow{h_t}]$

1.2 attention：

slot filling:
1. 權重計算：
$c_i^S = \sum^T_{j=1} \alpha^S_{i,j} h_j,\tag{1}$

$\alpha^S_{i,j} = \frac{exp(e_{i,j})}{\sum_{k=1}^T exp(e_{j,k})} \tag{2}$

α_{i, j}^{S} = \sum _{k = 1}^{T} e x p ( e _{j, k} ) e x p ( e _{i, j} ) (2)

$e_{i,k} = V^T \sigma(W_{he}^S h_k + W_{ie} h_i) \tag{3}$

$c_i^S \in R^{bs*T}$ ，和 $h_j$ 一致。
$e_{i,k} \in R^1$ ， $e_{i,k}$ 計算的是 $h_k$ 和當前輸入向量 $h_i$ 之間的關係。
作者TensorFlow原始碼 $W_{ke}^S h_k$ 用的卷積實現，而 $W_{ie}^S h_i$ 用的線性對映_linear()。
T是attention維度，一般和輸入向量一致，原始碼其實 $e_{i,k} = reduce\_sum(V^T \sigma(W_{ke}^S h_k + W_{ie} h_i))$ ，將其變為1維度，一共T個word，就有T個e。

$y_i^S = softmax(W_{hy}^S (h_i+c_i^S)) \tag{4}$

Intent Prediction:其輸入時BiLSTM的最後一個單元的輸出 $h^T$ 以及其對應的context向量。
$y^I = softmax(W_{hy}^I (h_T+c^I)) \tag{5}$

2、加入Attention機制的RNN模型。

計算和模型1類似，公式不在列出。

實驗結果：

model	ic error	slot F1
Attention Encoder-Decoder NN	1.57	95.87
Attention BiRNN	1.79	95.98

詞槽抽取的實驗結果比目前最好的要好0.1%左右。
意圖識別的實驗結果比目前最好的要提高1%左右。

Conclusions

獲得了stae of the art的表現，但是沒有指出未來的點，以及一些可能會有的問題，

個人認為資料集問題，有待在更大更多資料集驗證效果，例如ATIS資料量其實還是比較小，一共4478+500+893，對於百分點的提升有一定的隨機性，有待統計假設檢驗驗證等。（其實模型還是挺靠譜的，只是實驗還可以做得更嚴謹）

『論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

1、加入Attention機制和對齊機制的RNN編碼器-解碼器模型

1.1 底層特徵：

1.1.1 BiRNN(GRU or LSTM)

1.2 attention：

2、加入Attention機制的RNN模型。

實驗結果：

Conclusions

Reference

『論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

論文閱讀：A Primer on Neural Network Models for Natural Language Processing（1）

『論文閱讀』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

論文閱讀筆記二十三：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)

ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs（閱讀理解）

『論文閱讀』Understanding deep learning requires rethinking generalization

『論文閱讀』LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree

論文筆記：DRAW: A Recurrent Neural Network For Image Generation

RefineDet論文閱讀：Single-Shot Refinement Neural Network for Object Detection

論文《Chinese Poetry Generation with Recurrent Neural Network》閱讀筆記

[深度學習]Machine Comprehension機器閱讀中Attention-based Model注意力機制論文集合

論文閱讀——Gated-Attention Readers for Machine Reading Comprehension

論文閱讀筆記十八：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

【論文閱讀】Learning Dual Convolutional Neural Networks for Low-Level Vision

論文：用RNN書寫及識別漢字, Drawing and Recognizing Chinese Characters with Recurrent Neural Network

【論文閱讀】Long-Term Recurrent Convolutional Networks for Visual Recognition and Description

NRE論文總結：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

How to Visualize Your Recurrent Neural Network with Attention in Keras

論文閱讀：Attention to Scale: Scale-aware Semantic Image Segmentation

Recurrent Neural Network(1):Architecture

『 論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling

1、加入Attention機制和對齊機制的RNN編碼器-解碼器模型

1.1 底層特徵：

1.1.1 BiRNN(GRU or LSTM)

1.2 attention：

2、加入Attention機制的RNN模型。

實驗結果：

Conclusions

Reference

相關推薦

『論文閱讀』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling