基於神經網絡的實體識別和關系抽取聯合學習
基於神經網絡的實體識別和關系抽取聯合學習
聯合學習(Joint Learning)一詞並不是一個最近才出現的術語,在自然語言處理領域,很早就有研究者使用基於傳統機器學習的聯合模型(Joint Model)來對一些有著密切聯系的自然語言處理任務進行聯合學習。例如實體識別和實體標準化聯合學習,分詞和詞性標註聯合學習等等。最近,研究者們在基於神經網絡方法上進行實體識別和關系抽取聯合學習,我閱讀了一些相關工作,在此和大家一起分享學習。(本文中引用了一些論文作者Suncong Zheng的PPT報告)
1 引言
本文關註的任務是從無結構的文本中抽取實體以及實體之間的關系(實體1-關系-實體2
目前有兩大類方法,一種是使用流水線的方法(Pipelined Method)進行抽取:輸入一個句子,首先進行命名實體識別,然後對識別出來的實體進行兩兩組合,再進行關系分類,最後把存在實體關系的三元組作為輸入。流水線的方法存在的缺點有:1)錯誤傳播,實體識別模塊的錯誤會影響到下面的關系分類性能;2)忽視了兩個子任務之間存在的關系,例如圖中的例子,如果存在Country-President關系,那麽我們可以知道前一個實體必然屬於Location類型,後一個實體屬於Person類型,流水線的方法沒法利用這樣的信息。3)產生了沒必要的冗余信息,由於對識別出來的實體進行兩兩配對,然後再進行關系分類,那些沒有關系的實體對就會帶來多余信息,提升錯誤率。
理想的聯合學習應該如下圖:輸入一個句子,通過實體識別和關系抽取聯合模型,直接得到有關系的實體三元組。這種可以克服上面流水線方法的缺點,但是可能會有更復雜的結構。
2 聯合學習
這裏我主要關註的基於神經網絡方法的聯合學習,我把目前的工作主要分為兩大類:1)參數共享(Parameter Sharing)和2)標註策略(Tagging Scheme)。主要涉及到下面一些相關工作。
2.1 參數共享
論文《Joint Entity and Relation Extraction Based on A Hybrid Neural Network》,Zheng等人利用共享神經網絡底層表達來進行聯合學習。具體的,對於輸入句子通過共用的
論文《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》也是類似的思想,通過參數共享來聯合學習。只是他們在NER和RC的解碼模型上有所區別。這篇論文Miwa等人同樣是通過參數共享,NER使用的是一個NN進行解碼,在RC上加入了依存信息,根據依存樹最短路徑使用一個BiLSTM來進行關系分類。
根據這兩篇論文的實驗,使用參數共享來進行聯合學習比流水線的方法獲得了更好的結果在他們的任務上F值約提升了1%,是一種簡單通用的方法。論文《A Neural Joint Model for Entity and Relation Extraction from Biomedical Text》將同樣的思想用到了生物醫學文本中的實體關系抽取任務上。
2.2 標註策略
但是我們可以看到,參數共享的方法其實還是有兩個子任務,只是這兩個子任務之間通過參數共享有了交互。而且在訓練的時候還是需要先進行NER,再根據NER的預測信息進行兩兩匹配來進行關系分類。仍然會產生沒有關系的實體對這種冗余信息。出於這樣的動機,Zheng等人在論文《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》中提出了一種新的標註策略來進行關系抽取,該論文發表在2017 ACL上,並入選了Outstanding Paper。
他們通過提出了一種新的標註策略把原來涉及到序列標註任務和分類任務的關系抽取完全變成了一個序列標註問題。然後通過一個端對端的神經網絡模型直接得到關系實體三元組。
他們提出的這種新的標註策略主要由下圖中三部分組成:1)實體中詞的位置信息{B(實體開始),I(實體內部),E(實體結尾),S(單個實體)};2)關系類型信息{根據預先定義的關系類型進行編碼};3)實體角色信息{1(實體1),2(實體2)}。註意,這裏只要不是實體關系三元組內的詞全部標簽都為"O"。
根據標簽序列,將同樣關系類型的實體合並成一個三元組作為最後的結果,如果一個句子包含一個以上同一類型的關系,那麽就采用就近原則來進行配對。目前這套標簽並不支持實體關系重疊的情況。
然後該任務就變成了一個序列標註問題,整體模型如下圖。首先使用了一個BiLSTM來進行編碼,然後使用了在參數共享中提到的LSTM來進行解碼。
和經典模型不同的地方在於他們使用了一個帶偏置的目標函數。當標簽為"O"時,就是正常的目標函數,當標簽不是"O"時,即涉及到了關系實體標簽,則通過α來增大標簽的影響。實驗結果表明,這個帶偏置的目標函數能夠更準確的預測實體關系對。
3 總結
基於神經網絡的實體識別和關系抽取聯合學習主要由兩類方法。其中參數共享的方法簡單易實現,在多任務學習中有著廣泛的應用。Zheng等人提出的新的標註策略,雖然目前還存在一些問題(例如無法識別重疊實體關系),但是給出了一種新的思路,真正的做到了兩個子任務合並成了一個序列標註問題,在這套標註策略上也可以進行更多的改進和發展來進一步完善端到端的關系抽取任務。
參考文獻
[1] S. Zheng, Y. Hao, D. Lu, H. Bao, J. Xu, H. Hao, et al., Joint Entity and Relation Extraction Based on A Hybrid Neural Network, Neurocomputing. (2017) 1–8.
[2] M. Miwa, M. Bansal, End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures, ACL, (2016).
[3] F. Li, M. Zhang, G. Fu, D. Ji, A Neural Joint Model for Entity and Relation Extraction from Biomedical Text, BMC Bioinformatics. 18 (2017).
[4] S. Zheng, F. Wang, H. Bao, Y. Hao, P. Zhou, B. Xu, Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, Acl. (2017).
基於神經網絡的實體識別和關系抽取聯合學習