JEE by DBRNN and Tensor-Based Argument Interaction
《Jointly Extracting Event Triggers and Arguments by Dependency-Bridge RNN and Tensor-Based Argument Interaction》
來源:AAAI 2018
連結: https:// aaai.org/ocs/index.php/ AAAI/AAAI18/paper/view/16222/16157
問題介紹
事件抽取經典的基於CNN、LSTM的模型或者混合模型主要利用了詞義資訊和上下文資訊,本論文對此提出了兩點問題:
- 之前模型沒有很好地利用詞與詞間的依存關係資訊;
- 之前模型沒有很好地對candidate argments間的關係進行建模,而這種關係在argument detection和argument role classification任務中十分有用;
針對這兩個問題,論文做出瞭如下貢獻:
- 提出能將依存關係融入框架的Dependency-Bridge RNN結構,將依存關係編碼進RNN的輸出;
- 提出Tensor-Based Argument Interaction來建模argument間的關係,例如語義相關、依存相關、共現關係等,並通過實驗證明,該方法明顯提高了模型效能;
模型介紹
模型採用的是聯合模型的形式,同時完成event classification和argument role classification的任務

Event Classification任務模型
DB-RNN
模型結構如下圖:

模型在BiLSTM的基礎上,加入了詞與詞之間的依存關係資訊,加入過程如下式:


其中 表示模型學習到的依存關係p對應的權重,不同方向和關係的權重不同,
表示當前詞對應的依存父節點的位置和依存關係型別組成的二元組集合,
為輸出依存資訊的控制門,與LSTM其它門結構一樣。
可見DB-RNN相當於在原來LSTM單元的基礎上,引入了跨單元的輸出端受控連線,這樣可以對依存關係建模,但並不引入依存關係向量。
event classification分類器
分類器實際上將event detection和event classification兩個任務同時進行,即在類別集合中新增一個“No Event”類。
事件分類器端對前向DB-RNN最後輸出、反向DB-RNN最後輸出以及candidate trigger對應的雙向DB-RNN輸出進行拼接,再通過softmax進行分類,其公式如下:



當分類結果為某種事件觸發詞時, 可以表示該事件語義,作為argument role classification的部分輸入。
argument role classification模型
分類器實際上將argument detection和argument role classification兩個任務同時進行,即在類別集合中存在一個“No Argument”類。

argument關係Tensor
將candidate arguments對應的DB-RNN的輸出兩兩進行計算,每次計算得到一個長度為 的向量,該向量表示兩個argument間的關係語義,例如它們是否有共同的依存父節點等,相關公式如下:

其中 表示一個3D張量(Tensor),其大小為
,可以理解為建模了
種語義關係。
Max-pooling over arguments
將 的第二維,即按高進行max-pooling,這樣,每個candidate argument得到一個向量,可以理解為表示每個candidate argument存在於哪些argument關係中,相應的計算公式如下:

self-matching attention
類似於self-attension,SMA利用 計算不同arguments間的權重,然後進行加權求和,類似於利用arguments間的關係補充argument的資訊,其計算公式如下:


argument role classification分類器
分類器的輸入為事件語義向量 、
、
的拼接作為輸入,再通過一層全連線層的softmax分類器進行分類,公式如下:


模型訓練
採用Max-Margin Training,輸入為 ,其中
表示candidate arguments的角色分類結果的ground truth序列,
表示事件分類的ground truth, 表示模型預測的角色分類序列,
表示模型預測的事件分類序列。計算如下:




其中 表示margin,所謂margin可以理解為要求模型對ground truth打分比其它結果的最高打分要高的值,s函式為模型的打分,
為損失函式(包含正則項)。
由於 沒法直接求導(因為margin項為離散函式),故先使用
確定模型當前最高得分結果,再通過最後一個式子進行引數優化。
實驗
整體效能分析
可見對比baseline,模型具有較高的提升,論文中也有提到,與當前的state-of-art具有比較性(差不多)

Dependency-Bridge效果分析
實驗設定了兩個對照實驗,其一是不使用DB,其二是DB中不同方向和依存關係型別權重均為1,同時,對於不同關係型別學習到的權重,論文也做了視覺化對比,結果表明DB的有效性以及不同依存關係對問題具有不同的重要性,其中dobj最重要。


argument關係張量效果分析
實驗分別在argument identification和argument role classification兩個任務上進行,可見TL對模型效能提升很大,其組成部分SMA和MP分別有明顯提升;同時為了解釋argument關係張量學到的所謂“關係”,論文選取了張量的兩個比較好解釋的切片(一個表示是否共同的依存父節點,另一個表示語義相關性)對一個包含事件Die和Fire的句子得到的Tensor進行視覺化,也對SMA(論文中說表示兩個arguments是否一起出現)進行視覺化。


由於模型在得到Tensor的過程中並沒有利用任何事件類別相關的資訊,對於Die和Fire相同位置切片得到不同的視覺化結果感覺有點疑問