1. 程式人生 > >論文淺嘗 | 通過多原型實體指稱向量關聯文字和實體

論文淺嘗 | 通過多原型實體指稱向量關聯文字和實體

640?wx_fmt=png

Cao Y,Huang L, Ji H, et al. Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Embedding[C]// Meeting of the Association for Computational Linguistics. 2017:1623-1633.

導讀:學術界近兩年來十分關注如何將文字等非結構化資料和知識庫等結構化資料對映到相同的語義空間中,然而在相同的語義空間中建模的過程會受到文字中實體指稱(mention)歧義的影響,即文字中的同一個姓名如邁克爾·喬丹可能指的是著名的籃球運動員喬丹也可能是我們敬仰的教授喬丹,那麼在語義空間中,因為他們的字面表達相同而將其建模成為統一的向量顯然是不合理的。因此,文中提出了一種新的

mention向量表示的學習框架Multi-Prototype Entity Mention Embedding (MPME),它可以根據實體指稱所對應的詞義的不同而聯合文字和知識庫學習到不同的表示。此外,文中提出了一種類似於語言模型的方法解決了實體指稱的語義消歧問題。最後,實驗部分利用實體連結任務作為MPME的應用場景,取得了當前最優的實驗效果。

研究動機

當前有相當多的工作研究如何將文字和知識庫進行關聯建模,顯然這樣會為自然語言處理及知識庫相關的研究任務帶來比較大的效能提升。當前的研究思路可以粗略地分為兩類,其一是利用深度神經網路將實體和詞語直接在統一的語義空間中進行建模,但這類方法比較受限於計算複雜度以及語料的規模。其二是分別對知識庫中的實體以及文字中的實體指稱進行建模,並且利用

wiki 百科中的外鏈獲取 mention entity 之間的關聯,相當於在各自訓練的過程中加入了一層約束用於確保他們在各自的語義空間中有相似的表達。上述兩類方法都會面對同一個實體指稱可能對應到多個實體的歧義問題,即文字中提到的邁克爾喬丹可能是教授也可能是運動員或其他不甚知名的人,也會面臨多個實體指稱對應同一個實體的歧義問題,即文字中出現的姚明和小巨人可能指的同一個人。因此本文著手解決實體指稱的語義歧義問題,類似於傳統的實體連結任務。

創新點

本文提出了一種新型的實體指稱表示學習方法 MPME,結合文字資訊以及知識庫資訊學習實體指稱的表示;此外,文中還提出了一種基於語言模型的決策方法來進行實體指稱的語義消歧。

模型

640?wx_fmt=png

MPME 框架結構示意圖

如圖所示,模型可以大致分成兩個部分。

其一是表示學習部分,通過 Word Embedding Knowledge Graph Embedding 對文字和知識庫分別進行建模,其中每個實體指稱都對應著一個實體集合,也就是它們潛在的語義。在Entity Representation Learning中,訓練的目標是有相似的關聯實體的實體之間更相似。在Text Representation Learning中,實體指稱將和其他詞彙一起通過 Skip-Gram 模型進行訓練,在Mention Representation Learning中,實體指稱被替換為相應的詞義(sense),上下文的表示來自文字表示學習部分,實體的表示來自知識庫表示學習部分,目標是得到更好的實體指稱的表達sj*,使得根據上下文資訊,能夠確定實體指稱所對應的語義(對應哪個實體)。

其二是測試場景下的消歧部分,模型會綜合考慮實體指稱對應的上下文資訊,以及實體指稱對應各個語義的統計概率分佈進行計算。

實驗結果

文章的目標是訓練得到一組高質量的實體指稱向量,仍然沒有跳出表示學習的框架,因此實驗部分首先比較了採用$MPME$之後,訓練得到的向量的相似實體指稱都有哪些,以及從 mention embedding 和相應的 entity embedding餘弦距離的角度進行了分析,各項指標相對對比模型SPME提高了1%左右,這一部分就不做贅述了。

同時,文章利用 mention embedding 在實體連結任務上進行了驗證,在AIDA資料集上,不管是有監督的實體連結任務還是無監督的實體連結任務,利用 MPME 均取得了相較於之前最好結果3%左右的提升。

啟發

mention 之間的資訊

本文中把文字和知識庫分別單獨進行建模,mention 的建模過程中比較多的考慮 mentionentity 之間的關聯,所謂的上下文更多的是以詞視窗內詞彙的形式出現的,而不是上下文中其他的mention,因此有可能會忽略一些關鍵的資訊。傳統的實體連結方法中比較多使用的一類是基於圖的演算法,其優勢便在於能夠更充分的發掘 mention mention 之間,mentionentity 以及 entityentity 直接的結構關聯資訊,利用這些資訊進行消歧已經足夠有效(體現在實體連結任務的準確率上),那麼也可以嘗試利用圖結構更好地學習 mention 的表示。

潛在的問題在於,假設 mention 所對應的兩個歧義實體屬於同一個 category,那麼它們會共享十分相似的上下文,通過本文所題出的方法將不能很好的解決這個問題。比如兩隻都叫做旺財的狗,它們的日常表現應該會比較相似,唯一不同的可能就只有它們的主人不同,這一點需要上下文中 mention 的參與,共同建模。

未登入詞的處理

實際的應用場景中,未登入mention的數目理應遠多於已經訓練的 mention 的數目,這樣才能體現出模型或方法的泛化能力,這也為我們提出更加 generalframework 提出的新的需求,或者說,訓練的過程儘可能簡單,所需的額外資訊儘可能的少,對未登入詞的發現更加友好的框架。

論文筆記整理:吳桐桐,東南大學博士生,研究方向為自然語言問答。

OpenKG.CN

中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

640?wx_fmt=jpeg

轉載須知:轉載需註明來源“OpenKG.CN”、作者及原文連結。如需修改標題,請註明原標題。

點選閱讀原文,進入 OpenKG 部落格。