1. 程式人生 > >論文筆記:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

論文筆記:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

========簡陋的記錄===========
背景知識:Distant Supervised Relation Extraction,該方法的主要思想是,假設知識庫KB當中存在實體與實體的關係,那麼將KB當中的關係引入到正常的自然語言句子當中進行訓練,例如‘蘋果’和’喬布斯’在KB中的關係是CEO,那麼我們就假設類似於“【喬布斯】釋出了【蘋果】的新一代手機”的句子上存在CEO的關係,如此,利用KB對海量的文字資料進行自動標註,得到標註好的資料(正項),再加入一些負項,隨後訓練一個分類器,每個分類是一個關係,由此實現關係抽取。
在Distant Supervised Relation Extraction當中,面臨著兩個問題:1)KB當中Entity之間的關係和自然語言文字的對齊是啟發式的,兩個Entity同時存在一個句子就被標記起KB當中的關係,然而這假設太強,就存在很多錯誤標記的問題(如“【喬布斯】吃了一個【蘋果】”,就是錯誤標記,KB中表示這兩個是CEO關係,但實際上不是)。2)採用統計模型去分類的時候,應用的是人工設定的特徵(特徵工程錯誤、NLP工具的本身的Error 引起Error Propagation),其中可能存在一些上的錯誤,由此導致效能受影響。為了解決這個問題,本篇文章提出了一個名作PCNN的框架,加上Multiple Instance Learning學習方法,共同去解決1、2的問題。為了解決問題1,錯誤標記的問題,採用了Multiple Instance Learning(所有instance被聚合到若干個包當中,一個包如果被標記為正項,那麼至少有一個正項instance,如果被標記為負項,那麼 一定不存在一個正項instance),由此降低錯誤標記帶來的影響。為了解決問題2,特徵工程的錯誤,則直接不引入任何人工特徵工程的工作,直接使用一個CNN + Piecewise Max Pooling 去抽取特徵。
傳統的關係抽取方法,包含bootstrap、無監督發現或者有監督分類集中模式。其中有監督的方法是最常使用的,也是效能表現最好的一類,有監督主要是將關係轉換成類別標籤去考慮。但是,有監督的方法需要大量的資料,如果基於人工去標註每一句話當中的距離,那麼明顯是不現實的,也因此,這個方法也一直受制於訓練資料量不足的問題。為了解決這個問題,才引入了Distant Supervised Relation Extraction,引入外部KB來實現自動化的語料標註。自動標註解決了語料的數量問題,但是其標註質量一般,存在大量的wrong label,於是又引入了multi-instance learning來解決這個問題。與此同時,如何提取特徵也是一個很重要的工作,主流的方法有兩種,基於特徵的,無論基於什麼方法,都難以找到高質量的特徵。於是,本文準備使用PCNN進行特徵抽取和分類。
在PCNN部分,其特點在於:1、使用了預訓練的Word-Embedding 2、加入了Position Embedding,3、卷積部分是採用了常見的針對文字的卷積核設計,單向滑動。 4、在池化層,是按照分段進行max pooling的,而PCNN的P就是這個代表,將句子按照兩個entity進行分割,分割得到三段,這三段分別進行max pooling。5、最後使用一個Softmax分類器進行類別判斷。
在Multiple instance learning部分,專門針對次修改了優化的方法,來適應使用Multiple Instance Learning來降低Wrong Label。目前的理解是,針對上述PCNN模型,假設需要學習的引數是P,且訓練資料一共有T個bags,C種關係,那麼在訓練時則在bag級別進行訓練,損失函式為bag級別的交叉熵,每個袋子預測為關係r的概率為這個袋子裡被預測為袋子r關係最大的值,即分類器仍然是在袋子裡面的instance級別進行計算,但是在計算損失更新引數的時候,則同時考慮這個袋子裡面的所有instance,選擇概率最大的那一個作為這個袋子的代表。就這樣每輪將Mini-batch裡的所有袋子的損失計算出來,用於更新引數P,即bag-level,而不是傳統的instance level。
實驗部分主要關心:1、利用Multiple Instance Learning + PCNN能否提升效能2、測試不同引數的影響。資料集使用了一個公開的資料集,KB是Freebase,而metric為precision/recall。實驗Baseline部分包含:傳統的Distant Supervision RE Baseline、包含Multiple-Instance改進的,同時包含Multiple-Instance+Multiple Labels改進的。實驗顯示該方法均高於Baseline模型不少