關聯搜尋結果摘要 (WISE’18 錄用論文介紹)
由於之前各種瑣事纏身再加上本人的拖延癌晚期(主要原因),今天才來寫這篇7月份錄用的文章。文章的標題是Diversified and Verbalized Result Summarization for Semantic Association Search,其中Diversified相關部分由我完成,Verbalized相關部分由樑悅完成。
實體關聯搜尋旨在挖掘關聯多個查詢實體之間的子圖(即語義關聯,semantic association),然而符合條件的子圖通常有百千萬甚至上億個,所以直接將所有結果展示給使用者是不現實的。一個常見的解決方式是對語義關聯進行聚類或抽象,具體做法為將語義關聯中的非查詢實體替換為對應的實體類別(如,把Obama替換為Politician),得到對應的語義關聯模式(semantic association pattern, SAP)。然而,在DBpedia這樣的知識圖譜中,得到的SAP的數量依然非常眾多,所以需要進一步選擇。經觀察發現,生成的SAP中往往存在大量的冗餘(即相似的SAP),所以我們需要對結果進行多樣化的選擇,這裡即對應了diversified。此外,考慮到圖結構的視覺化效果,非自然語言的label形式可能會對非專家使用者帶來一定閱讀上的困難,進而給我們留下使用者體驗極差的反饋,本文進一步提出了將SAP轉化為自然語言文字(英文)的演算法。最終的user study表明了我們的方法大大提升了使用者好評率。
Preliminary
首先對幾個基本術語進行一些簡單的介紹。
關聯搜尋:輸入:知識圖譜中的某幾個實體(查詢實體), 輸出:查詢實體間的語義關聯(關聯子圖)。
語義關聯:知識圖譜中連線所有查詢實體 極小 連通子圖。極小即該圖的任一真子圖都不再能夠形成一個連線所有查詢實體的連通圖,可以想到,這樣的圖一定會有以下性質(不考慮邊的方向的情況下):1)是樹 2)度數為1的點只能為查詢實體
語義關聯模式(SAP):同樣是關聯所有查詢實體的極小連通子圖,唯一的區別在於語義關聯中除查詢實體以外的頂點也是實體,而在SAP中這些非查詢實體被替換成了對應的類,對應地,我們稱一個語義關聯滿足 一個SAP,當且僅當該SAP可由該語義關聯替換產生。一個SAP的頻度 即指滿足該SAP的語義關聯的數量。
Diversification
Diversification的整體框架基於一個組合優化問題(多維01揹包):
max\(\sum^m_{i=1}y_i\cdot f(z_i, X)\)
subject to\(\sum^m_{i=1}y_i \leq k\),
and \(y_i + y_j\leq 1\) for every \(i\neq j\) and \(sim(z_i, z_j)\geq \phi\).
其中X表示所有語義關聯的集合,\(z_i\)即表示某一個SAP,\(f(z_i, X)\)即對SAP\(z_i\)的打分,本文的打分方式只考慮了SAP的頻度。\(y_i\)標識對應的SAP是否被選中,1表示選中,0表示不選,所以第一個約束條件表示最多選k個SAP(top K),第二個約束條件表示當兩個SAP相似度大於某一給定閾值是,最多隻有一個能被選中。所以這裡的關鍵問題在於如何衡量兩個SAP的相似度。本文提出了一種新的度量方式pGED(一種圖編輯距離的變體),主要思想為考慮把一個SAP轉化為另一個SAP最小的編輯代價,特別的,本文使用wpath(一個state-of-art的計算類相似度的方法)來計算替換class標籤時的代價。
此外,由於多維揹包問題被證明是np hard,為了提高系統的效率,我們通過啟發式函式來近似求解(圖片上傳還是報錯,這裡具體就不貼了…)。
Verbalization
考慮到知識圖譜資料高度結構化的特徵,本文通過基於規則的方式將SAP轉化為對應的自然語言文字。具體的演算法包括兩個部分,篇章規劃(discourse planning)和詞彙化(tokenization)。特別地,本文的篇章規劃演算法由兩部分構成,即句子級規劃(sentence-level planning)和段落級規劃(document-level planning)。其中句子級規劃考慮如何將三元組按一定規則轉化為一個句子,而段落級規劃考慮將如何將多個句子組織為一個流暢通順的段落。由於本文只考慮直徑在4以內的SAP,所以可以窮舉所有可能的情況並指定相應規則。
詞彙化將知識圖譜中原有的label(主要是property的label)進行分詞並轉化為正確的時態,保證句子語法的正確性。
User Study
我們設計了多個使用者實驗,讓使用者從不同角度對我們的系統給出反饋。
實驗一:我們對比了做多樣化和不做多樣化的結果。
實驗二:我們對比了使用pGED計算相似度做多樣化的結果以及基於Jaccard距離計算相似度的結果。
實驗三:我們對比了我們的自然語言生成演算法和另一個state-of-art演算法NatrualOWL,使用者被要求從正確性、可理解性、簡潔性、準確性4個角度對兩個系統生成的自然語言句子分別打分。
圖暫時還是傳不上來,後面再補