《Zero-Shot Transfer Learning for Event Extraction》
Introduction
由於當前的事件抽取模型依賴於監督資料中已有事件(seen type)的特徵學習,所以不利於擴充套件到新的事件類別(unseen type)上。論文提出的方法基於如下假設:”the semantics of an event structure can be generalized and mapped to event mention structures in a systematic and predictable way“,即事件型別的語義(type + argument role)和相對應的事件描述的語義(trigger + argument)在同一個語義空間內應該是相似的。
鑑於上述假設,作者認為,可以學習一個所有事件型別(seen + unseen)共用的型別語義對映,同時學習一個所有事件描述的語義對映,來將兩者對映到同一個語義空間進行相似性計算;當一個新的事件型別(unseen)被定義時,不需要新的該型別的資料標註,就可以對該型別的Mention進行分類。論文實驗結果表明,這種Zero-Shot的方法達到了監督學習的效能。


Model
模型在事件分類和角色分類上採用的是pipe-line架構,模型的語義對映層是用CNN實現,事件描述和事件類別結構的兩種對映的引數共享。結構如下:

Trigger and Type Structure Composition
事件描述
論文中,首先採用了AMR(Wang et al., 2015b)解析工具識別潛在的trigger和arguments,之後使用詞義消歧工具(Zhong and Ng, 2010)將trigger和argument的語義對映到OneNotes中,除此之外,對應於FrameNet中的動詞和名詞單元的也將作為潛在trigger。由此得到潛在事件描述的AMR圖。
AMR圖中的節點對和對應的邊表示成三元組形式 Line"/> ,並按照從上至下的順序排列(論文中用的詞,應該是指AMR解析的輸出順序),每個三元組對應向量
計算如下:

隨後將 通過CNN得到事件描述向量
事件型別
ACE guidline中定義的事件型別是一個一層的樹狀圖,根節點為事件型別,將二元組 的向量表示
按照從上往下的順序(論文中用的詞,估計是按照文件定義裡argument role的先後順序)排列成一個矩陣,通過CNN後得到對應的語義向量。
的計算如下,其中
表示事件型別的詞向量,
表示事件角色的詞向量,
:

隨後將 通過CNN得到事件描述向量
學習函式
論文中採用了Hinge-Loss,其中t表示事件描述,y表示標註的事件型別:

由於Hinge-Loss容易過擬合seen type資料特徵,所以論文中採用瞭如下資料增強的方法,其中,Other指unseen type,在模型看來就是unseen type的未標註的資料,Y指所有事件型別(seen type + unseen type),Y'指seen type,y'指當前t預測得分最高的type:

事件角色

以上述標註示例為例,China被分類為事件的Agent基於 和
的語義相似性。
對於一個標定了trigger(型別已知)和待分類argument的句子t,抽取出AMR解析結果的一條路徑 ,對應p個三元組,其對應的事件型別樹的二元組
表示成1個二元組,之後採用和事件分類相同的方法進行角色分類。
實驗
實驗seen type設定

實驗資料統計

驗證結構語義的有效應
論文中設定的對照組為WSD-Embedding,即直接用模型輸入的OneNotes裡詞的詞向量來計算trigger和event type的相似性,或者argument role和argument的相似性,實驗結果如下:

驗證seen type和unseen type的相似性對實驗的影響
論文中選取了Justice中的四個subtype:Arrest-Jail,Convict,Charge-Indict,Execute的資料作為訓練集,其他三個subtype:Sentence,Appeal,Release-Parole作為測試集,另外,在其它type中各選取一個subtype加入測試集,實驗結果如下:

驗證遷移學習的效果
驗證使用了10個seen type subsets進行遷移學習,得到的模型用於預測23個unseen type資料,與之做對比的是在所有subtype上的監督學習,監督學習在23個unseen type的資料上一次取一個type的一個數據,並進行計數,結果如下,可見遷移學習大致有500條監督資料的效果:

zhengzhengnhe'zgneh驗證gneh'znayz