收藏 | 最新知識圖譜論文清單(附解讀、下載)
來源:開放知識圖譜
本文約9100字,建議閱讀10+分鐘。
解讀今年頂會的知識圖譜相關論文,帶你快速瞭解知識圖譜領域最新研究進展。
精選 6 篇來自 EMNLP 2018、COLING 2018、ISWC 2018 和 IJCAI 2018 的知識圖譜相關工作,帶你快速瞭解知識圖譜領域最新研究進展。
後臺回覆“181118”下載6篇論文全文
EMNLP 2018
論文解讀 | 張良,東南大學博士,研究方向為知識圖譜、自然語言處理
本文主要關注 KG embedding 中三元組成立的時間有效性問題,比如三元組(Cristiano Ronaldo, playsFor, Manchester United),其成立的有效時間段是 2003 年到 2009 年,這個使三元組有效成立的時間段被稱為 temporal scopes。
這些 temporal scopes 隨著時間的推移對許多資料集會產生影響(比如 YAGO,Wikidata),現有的 KG embedding 方法很少考慮到時間這一維度,因為它們假設所有的三元組總是永遠正確的,可是現實中很多情況下不是這樣。
本文提出了 HyTE 模型,HyTE 不僅能夠利用時間導向進行知識圖譜圖推理,還能夠為那些缺失時間註釋的事實預測 temporal scopes。實驗結果表明該模型與傳統模型或者同類模型相比都有著突出的表現。
研究背景
知識圖譜嵌入(Knowledge graph embedding)方法是將知識圖譜中的實體和關係表示成連續稠密低維實值向量,從而可以通過向量來高效計算實體與關係的語義聯絡。從 2013 年 TransE 的提出,到後來一系列的衍生模型,比如 TransH,TransD,TransR,DKRL, TKRL, RESCAL, HOLE 等等,都是對 TransE 模型的擴充套件。
這些模型都沒有考慮時間維度,一直將知識圖譜當做靜態來處理,這顯然不符合事實。資料的暴漲與更新表明知識圖譜本來就是動態的,所以後來有工作將時間資訊考慮進去,但只是將時間序列作為 KG embedding 過程中的約束,沒有明顯地體現時間的特性。為此,本文提出的 HyTE 模型直接在學習的過程中結合時間資訊。
論文模型
本文認為不僅是知識圖譜中的實體可能會隨著時間改變,實體間的關係也是如此。由於 TransE 模型不能處理多關係的情形,而 TransH 模型能夠使實體在不同的關係下擁有不同的表示,所以本文受 TransH 的啟發提出了一個基於超平面的時間感知知識圖譜嵌入模型。
考慮一個四元組 (h,r,t,[τs, τe]),這裡的 τs 和 τe 分別定義了三元組成立時間段的起始與截止。TransE 模型將實體和關係考慮到相同的語義空間,但是在不同的時間段,實體與關係組成的(h,r)可能會對應到不同的尾實體 t。
所以在本文的模型中,希望實體能夠隨不同的時間點有著不同的表示。為了達到這一目的,文中將時間表示成超平面(hyperplane),模型示意圖如下:
eh,et,er,分別表示三元組中頭實體,尾實體以及關係所對應的向量表示,τ1 和 τ2 分別表示此三元組有效成立時間段的起始時間與截止時間。eh(τ1), er(τ1) 以及表示各向量在時間超平面 τ1 上的投影,最終,模型通過最小化翻譯距離來完成結合時間的實體與關係 embedding 學習過程。
實驗
當實驗資料包含兩部分:YAGO11k 和 Wikidata12k,這兩個資料集抽取了 YAGO 以及 Wikidata 中帶有時間註釋(time annotations)的部分。通過 Link prediction 以及 Temporal scoping 兩個實驗任務與其它模型比較,實驗結果如下:
1. 實體預測結果
2. 關係預測結果
3. Temporal Scoping預測結果(越小越好)
實驗結果表明,HyTE 模型在相關任務上與其它模型相比有較為顯著的提升。
EMNLP 2018
論文解讀 | 王樑,浙江大學碩士,研究方向為知識圖譜、自然語言處理
研究背景
機器閱讀任務按照答案型別的不同,可以大致分為:
分類問題:從所有候選實體選擇一個;
Answer Span:答案是輸入文字的一個片段;
生成式問題:模型生成一句話回答問題。
不同的資料集文件的差異也較大。如 SQuAD,CNN/DM 資料集來源於百科,新聞等文字,問題型別多為事實型,因而回答問題不需要綜合全文多處進行綜合推理,只需要包含答案的句子即可。而本文實驗所用的資料集如 NarrativeQA 則來源於小說等,回答問題需要綜合全文多處不相連片段進行推理,因此難度更大。
本文提出在 NarrativeQA 等需要多跳推理的文字進行生成式問題回答的模型。人工抽樣資料集樣本分析發現,許多樣本答案的推理單憑文字包含的資訊是無法完成推理並回答的,需要引入外部知識庫中的常識資訊。本文提出在常規的機器閱讀模型中引入 ConceptNet 中的常識資訊。
Baseline模型
按照機器閱讀模型的一般性結構,Baseline 模型可以分為 4 層:
1. Embedding Layer:問題和文件裡的每個詞用預訓練的詞向量和 ELMo 向量表示;
2. Reasoning Layer:重複執行 K 次推理單元,推理單元的內部結構是 BiDAF 模型的 attention 層;
3. Model Layer:最後再對文件的表示做 self-attention 和 Bi-LSTM;
4. Answer Layer:pointer-generator decoder,即 RNN 的每一步同時對詞表和輸入計算輸出概率,每個詞在當前位置被輸出的概率為其在詞表中被選中的概率和其在輸入中被 copy 的概率之和。
改進模型:引入外部常識
1. 常識挑選
對每一個樣本,需要中外部 KG 中選擇與之相關的多跳路徑,做法如下:
在 KG 中找出多跳路徑,其中包含的實體出現在樣本的問題或文件中;
對這些路徑中的實體節點按照出現次數或 PMI 打分;
類似 beam search,從所有路徑生成的輸出中挑選出得分最高的一些路徑,這些路徑是對該樣本可能有幫助的外部常識資訊。
模型引入常識
引入外部常識通過修改 Reasoning Layer 中的基本單元。具體做法是,每條路徑的 embedding 表示為其每個節點的文字 embedding 的簡單拼接,修改後的 Reasoning Cell 在經過 BiDAF 的 attention 結構後,再對該樣本的所有外部常識三元組路徑做 attention 計算,該 attention 計算再次更改文件和問題中每個詞的表示。
實驗結果
對比 Baseline 模型和引入外部常識的模型可見,引入外部常識能是模型在 BLEU 和 Rouge 等指標上取得不錯的提升。
對模型做 ablation test,可以發現推理層的推理次數如果為 1,模型效果下降很多,這表明模型確實在利用多跳的路徑資訊。另外,ELMo embedding,以及經過 Reasoning 層後的 self-attention,都對模型的效果提升較大。
ISWC 2018
論文解讀 | 丁基偉,南京大學博士生,研究方向為知識圖譜、知識庫問答
研究背景
面向知識庫的語義問答是指將使用者的自然語言問句轉換為可以在知識庫上執行的形式化查詢並獲取答案,其面臨的挑戰主要有以下幾點:
實體的識別和連結;
關係的識別和連結;
查詢意圖識別;
形式化查詢生成。
其中實體連結和關係連結是指將自然語言問句中的詞彙(或短語)連結到知識庫中對應的實體或關係。大多數現有問答系統依次或並行執行實體連結和關係連結步驟,而本工作將這兩個步驟合併,提出了基於廣義旅行商問題和基於連線密度相關特徵進行機器學習的兩種聯合連結方法。
下表展示了不同種類的連結方法的優缺點:
框架及方法
上圖展示了本文提出的聯合的實體關係連結框架(EARL,Entity and Relation Linking),主要包括如下兩個步驟:
1. 預處理步驟(左側紅框),包括如下三個子過程:
1)利用 SENNA 系統從輸入的自然語言問句中抽取出若干關鍵詞短語。對於圖中輸入的問句,這裡抽取到的關鍵詞短語是<founder,Tesla, SpaceX, born>。
2)對於每個關鍵詞,使用基於字元嵌入(character embedding)的 LSTM 網路判斷它是知識庫中的關係還是實體。對於上個過程中的關鍵詞短語,這一步將“founder”和“born”識別為關係, 將“Tesla”和“SpaceX”識別為實體。
3)為每個關鍵詞短語生成候選實體或關係列表。對於問句中的實體名,利用預先收集的 URI-label 詞典,以及 Wikidata 中的實體別名、sameas 關係等進行生成。對於關係詞,利用 Oxford Dictionary API 和 fastText 擴充套件知識庫上的關係名後進行關聯。
2. 聯合消歧步驟(右側黃框),主要包括本文提出的兩個核心方法:
1)基於廣義旅行商問題(GTSP)的消歧方法。如下圖所示,該方法將每個關鍵詞的候選 URI 放入同一個簇。邊的權重被設定為兩個 URI 在知識庫上的距離(hop 數),而聯合消歧過程被建模為在該圖上尋找一條遍歷每個簇的邊權總和最小的路(頭尾結點可以不同)。
對於 GTSP 問題的求解,本工作先將其轉換為 TSP 問題,後使用 Lin-Kernighan-Helsgaun 近似演算法進行求解。圖中加粗的邊表示該示例的求解結果。
2)基於連線密度相關特徵進行機器學習的消歧方法。對於每個關鍵詞的所有候選 URI,分別抽取特徵 Ri(候選列表中的排序位置),C(2 步以內可達的其他關鍵詞的候選 URI 的數量),H(到其他關鍵詞的候選 URI 的平均步數)三個特徵,採用 XGBoost 分類器篩選最合適的候選。
下表總結了上述兩個消歧方法的差異:
3)額外的,本文提出了一種自適應實體/屬性預測方法。如果消歧後某個實體/關係和它最終連結到的 URI 的置信度低於閾值,則可能預處理步驟的第二個子過程(實體/關係預測)有錯誤。在這種情況下,該工作會更改該關鍵詞的實體/關係標籤,重新執行候選生成和消歧步驟,從而獲得整體精度的提升。
實驗
本文選用了 LC-QuAD 問答資料集進行實驗,包含 5000 個問句。其標準答案(實體/關係對應的 URI)採用人工標註的方法進行生成。除此以外本文還選用了現有的 QALD-7 問句集進行測試。
實驗結果如下表所示,和對比方法相比,EARL 在 MRR 值上有較大提升。
1. 實體連結結果:
2. 關係連結結果:
IJCAI 2018
論文解讀 | 譚亦鳴,東南大學博士,研究方向為知識圖譜問答、自然語言處理
論文動機
近年來,隨著多語言知識圖譜嵌入(Multilingual KG Embedding)的研究,實體的潛在語義表示以及跨語言知識推理等任務均取得一定成效,因此也推動了許多知識驅動的跨語言工作。然而,受限於各語言知識圖譜之間較低的實體對齊(Entity Alignment)程度,跨語言推理的準確性往往不夠令人滿意。
考慮到多語言知識圖譜中具有對實體的文字性描述,文章提出一種基於嵌入(Embedding)的策略:通過利用圖譜中實體的文字描述,對僅包含弱對齊(KG 中的 inter-language links,ILLs)的多語圖譜做半監督的跨語言知識推理。
為了有效利用圖譜知識以及實體的文字描述,文章提出通過協同訓練(Co-train)兩個模組從而構建模型 KDCoE:多語言知識嵌入模組和多語言實體描述嵌入模組。
論文貢獻
文章貢獻如下:
1.提出了一種半監督學習方法 KDCoE,協同訓練了多語知識圖譜嵌入和多語實體描述嵌入用於跨語言知識對齊;
2.證明 KDCoE 在 Zero-shot 實體對齊以及跨語言知識圖譜補全(Cross-lingual KG Completion)任務上的有效性;
論文方法
1. 多語言知識圖譜嵌入(KGEM)
由知識模型(Knowledge Model)和對齊模型(Alignment Model)兩個部分構成,分別從不同角度學習結構化知識:
知識模型:用於保留各語言知識嵌入空間中的實體和關係。文章採用了傳統的 TransE 方法構建知識模型,並認為這種方法有利於在跨語言任務重中保持實體表示的統一性,且不會受到不同關係上下文帶來的影響。其對應的目標損失函式如下:
其中,L 表示某種語言,(Li,Lj) 表示一組語言對,GL 表示語言 L 對應的知識圖譜,反映的是圖譜中三元組 (h,r,t) 之間的相異度,r 是一個 positive margin,[x]+ 則表示取 x 的正值部分,表示一組伯努利負取樣三元組,用於替換圖譜三元組中的 h 和 t。
對齊模型:用於在不同語言的嵌入空間中獲取跨語言關聯。為了將不同語言間的知識關聯起來,文章參照 MTransE 中的線性轉換策略,其目標函式如下:
其中 (e, e') 是一組已知的對齊實體,當知識嵌入向量的維度為 k1 時,Mij 是一個的線性轉換矩陣,用於將 Li 語言的實體向量轉換為 Lj 語言。這裡與 MTransE 方法不同的是,文章僅計算了跨語言實體嵌入而非三元組整體嵌入。
KGEM 的目標函式:
其中,α 是一個正超引數。
2. 多語言實體描述嵌入(DEM)
DEM 過程包含兩個部分:編碼和跨語言嵌入。
編碼:文章使用 Attentive Gated Recurrent Unit encoder, AGRU 對多語言實體描述進行編碼,可以理解為帶有 self-attention 的 GRU 迴圈網路編碼器。
文章希望利用 self-attention 機制使得編碼器能夠凸顯實體描述句子中的關鍵資訊,AGRU 中的 self-attention 可以定義為以下公式:
其中,ut 是由 GRU 中 st 產生的隱藏表示,attention 權值 at 則是由一個 softmax 函式計算得到,反映的是單詞 xt 對於序列 X 的重要性,而後依據此權重與隱藏表示可以得到 self-attention 的輸出 vt,|X|(輸入序列的長度)用於防止 vt 失去原有的規模。
在這個部分,作者也嘗試了其他的編碼框架,包括單層網路,CNN,ALSTM 等等,但 AGRU 取得了最好的效能。
跨語言嵌入部分:為了更好的反映出多語言實體描述的詞級別語義資訊,文章使用跨語言詞嵌入方法用於衡量和找出不同語言間的相似詞彙。大致流程可描述如下:
首先,使用跨語言平行語料 Europarl V7 以及 Wikipedia 中的單語語料,對 cross-lingualBilbowa [Gouws et al., 2015] word embeddings 進行預訓練。而後使用上述 embeddings 將實體描述文字轉換為向量序列,再輸入進編碼器中。
DEM 學習目標:文章建立的編碼器由兩個堆疊的 AGRU 層構成,用於建模兩種語言的實體描述。該編碼器將實體描述序列作為輸入,而後由第二層輸出生成的 embedding。而後,文章引入了一個 affine 層,將上述各種語言的 embedding 結果投影到一個通用空間中,其投影過程由以下公式描述:
DEM 的目標是最大化各個實體描述 embedding 與對應的其他語言版本之間的 log 相似度,故可以將目標函式描述如下:
3. 迭代Co-training的KDCoE模型
文章利用 KG 中存在的少量 ILLs 通過迭代的協同過程訓練 KGEM 和 DEM 兩個模組,過程大致描述如下:
每次迭代中,各模組都進行一系列“訓練-生成”的過程:
1) 首先利用已有的 ILLs 對模型進行訓練;
2)之後利用訓練得到的模型從 KG 中預測得到以前未出現過的新 ILLs;
3)而後將這些結果整合到已有 ILLs 中,作為下一輪迭代的訓練資料;
4)判斷是否滿足終止條件:本輪迭代中各模組不再生成新的 ILLs。
其演算法細節描述如下圖:
實驗
1. 實驗相關細節
實驗資料說明:文章實驗資料來自 DBPedia 中抽取的子集 WK3160k,由英法德三語構成,其中每種語言資料中包含了 54k-65k 規模的實體。具體統計資訊如下表:
文章分別在跨語言實體對齊,Zero-shot 對齊以及跨語言知識圖譜補全等三個任務上進行實驗。
其中,跨語言實體對齊選用的基線系統包括:LM,CCA,OT,ITransE 以及 MTransE 的三種策略;Zero-shot 對齊的基線系統為:Single-layer 網路,CNN,GRU,AGRU 的兩種策略;知識圖譜補全的基線系統為 TransE。
2. 實驗結果
跨語言實體對齊:如下圖所示,文章設定了三組評價指標,分別為:accuracy [email protected];proportion of ranks no larger than 10 [email protected];mean reciprocal rank MRR。
從結果上看,KDCoE 模型的效能遠優於其他系統,且隨著 Co-train 的迭代次數增加,系統的效能也都有較為明顯的提升。
Zero-shot 對齊:Zero-shot 採用的評價指標與跨語言實體對齊相同,下圖反映了 KDCoE 在 Zero-shot 對齊任務中的實驗結果。
從實驗結果上看,KDCoE 的效果依然是隨著迭代次數的增加而上升,但從第一次迭代的結果可以發現,其優勢的來源基礎是 AGRU。這也反映出 AGRU 在編碼上相對其他網路模型體現出了更優效能。
跨語言知識補全:在跨語言知識補全任務中,文章採用 proportion of ranks no larger than 10 [email protected];mean reciprocal rank MRR 等兩個評價指標。
根據 KDCoE-mono 的表現,可以推斷,該模型成功繼承了 TranE 保持結構化知識中實體和關係的穩定性。而 KDCoE-corss 則反映引入跨語言資訊確實對知識補全的效果起到了明顯提升。
總結
本文提出了一種基於 embedding 技術的跨語言知識對齊方法,通過引入 Co-train 機制,將 KG 中的關係上下文與實體描述資訊有效的利用起來,以現有 KG 中的小規模 ILLs 為基礎建立半監督機制,在跨語言實體對齊,知識補全上都起到了明顯的效果。
IJCAI 2018
論文解讀 | 花雲程,東南大學博士,研究方向為知識圖譜問答、自然語言處理
論文動機
在以前的工作中,對話生成的資訊源是文字與對話記錄。但是這樣一來,如果遇到 OOV 的詞,模型往往難以生成合適的、有資訊量的回覆,而會產生一些低質的、模稜兩可的回覆。
為了解決這個問題,有一些利用常識知識圖譜生成對話的模型被陸續提出。當使用常識性知識圖譜時,由於具備背景知識,模型更加可能理解使用者的輸入,這樣就能生成更加合適的回覆。但是,這些結合了文字、對話記錄、常識知識圖譜的方法,往往只使用了單一三元組,而忽略了一個子圖的整體語義,會導致得到的資訊不夠豐富。
為了解決這些問題,文章提出了一種基於常識知識圖譜的對話模型(commonsense knowledge aware conversational model,CCM)來理解對話,並且產生資訊豐富且合適的回覆。
本文提出的方法,利用了大規模的常識性知識圖譜。首先是理解使用者請求,找到可能相關的知識圖譜子圖;再利用靜態圖注意力(static graph attention)機制,結合子圖來理解使用者請求;最後使用動態圖注意力(dynamic graph attention)機制來讀取子圖,併產生合適的回覆。
通過這樣的方法,本文提出的模型可以生成合適的、有豐富資訊的對話,提高對話系統的質量。
論文貢獻
本文貢獻如下:
1.首次嘗試使用大規模常識性知識圖譜來處理對話生成問題;
2.對知識圖譜子圖,提出了靜態/動態圖注意力機制來吸收常識知識,利於理解使用者請求與生成對話。
論文方法
1. Encoder-Decoder模型
經典的 Encoder-Decoder 模型是基於 Seq2Seq 的。Encoder 模型將使用者輸入(user post)X 用隱狀態 H 來表示,而 Decoder 模型使用另一個 GRU 來迴圈生成每一個階段的隱狀態。
其中 Ct 是上下文向量,通過注意力機制按步生成。最終,Decoder 模型根據概率分佈生成了輸出狀態,併產生每一步的輸出 token。
2. 模型框架
如下圖 1 所示為本文提出的 CCM 模型框架。
圖1. CCM模型框架
如圖 1 所示,基於 n 個詞輸入,會輸出 n 個詞作為回覆,模型的目的就是預估這麼一個概率分佈:
也就是將圖資訊 G 加入到概率分佈的計算中。
在資訊讀取時,根據每個輸入的詞 x,找到常識知識圖譜中對應的子圖(若沒有對應的子圖,則會生成一個特殊的圖 Not_A_Fact),每個子圖又包含若干三元組。在資訊讀取時,詞向量與這個詞對應的子圖向量拼接,而子圖向量是由採用靜態圖注意力機制生成的。
當生成回覆時,採用動態圖注意力機制來引用圖資訊,即讀取每個字對應的子圖和子圖中的實體,並且在生成當前回覆時,通過概率計算應該是生成通用詞還是這個子圖中的相關實體。
3. 知識編譯模組
如圖 2 所示,為如何利用圖資訊編譯 post 的示意圖。
圖2. 知識編譯模組
如圖所示,當編譯到“rays”時,會把這個詞在知識圖譜中相關的子圖得到(圖 2 最上的黃色高亮部分),並生成子圖的向量。每一個子圖都包含了 key entity(即這裡的 rays),以及這個“rays”的鄰居實體和相連關係。
對於詞“of”,由於無法找到對應的子圖,所以就採用特殊子圖 Not_A_Fact 來編譯。之後,採用基於靜態注意力機制,CCM 會將子圖對映為向量 gi,然後把詞向量 w(x_t) 和 gi 拼接為 e(xt)=[w(xt); gi],並將這個 e(xt) 替換傳統 encoder-decoder 中的 e(xt) 進行 GRU 計算。
對於靜態圖注意力機制,CCM 是將子圖中所有的三元組都考慮進來,而不是隻計算一個三元組,這也是該模型的一個創新點。當得到子圖時,且這個子圖由三元組 K 表示, K(gi)={k1,k2,…,k(NG)}。在計算時,就是將當前三元組的頭實體與尾實體向量通過矩陣變換後相加,再經過正切啟用函式後,與經過矩陣變換的關係進行點積,得到一個值。
而將這個詞向量與所有三元組進行計算後,再經過 softmax,就得到了一個權重。把子圖中所有頭實體、尾實體按對相加,再基於權重計算加權和,就得到了圖向量 gi。
4. 知識生成模組
如下圖 3 所示,為如何利用圖資訊生成回覆的示意圖。
圖3. 知識生成模組
在生成時,不同於靜態圖注意力機制,模型會讀取所有相關的子圖,而不是當前詞對應的子圖,而在讀取時,讀取注意力最大的就是圖中粉色高亮的部分。生成時,會根據計算結果,來選擇是生成通用字(generic word)還是子圖中的實體。
在進行 decoder 時,公式改為,而是指將生成的詞向量,以及這個詞來自的三元組向量進行拼接(如果生成的是一個通用詞,那麼三元組就是 Not_A_Fact)。
在這裡,可以看到 GRU 的輸入多了兩個向量(來自於表示圖資訊的向量)和(表示三元組資訊的向量)。
對於動態圖注意力機制,是一種層次型的計算,即 CCM 先根據 post 相關的所有知識圖譜子圖來計算一個向量,再根據子圖中的三元組再計算一個向量。對於上個階段的隱狀態輸出 st,最終的是圖向量 gi 的加權和