1. 程式人生 > >《大資料智慧》第2章:知識圖譜

《大資料智慧》第2章:知識圖譜

第2章:知識圖譜——機器大腦中的知識庫

2.1 什麼是知識圖譜

在網際網路時代,搜尋引擎是人們線上獲取資訊和知識的重要工具。當用戶輸入一個查詢詞,搜尋引擎會返回它認為與這個關鍵詞最相關的網頁。從誕生之日起,搜尋引擎就是這樣的模式。

直到2012年5月,搜尋引擎巨頭谷歌在它的搜尋頁面中首次引入“知識圖譜”:使用者除了得到搜尋網頁連結外,還將看到與查詢詞有關的更加智慧化的答案。如圖2.1所示,當用戶輸入“Marie Curie”(瑪麗·居里)這個查詢詞,谷歌會在右側提供了居里夫人的詳細資訊,如個人簡介、出生地點、生卒年月等,甚至還包括一些與居里夫人有關的歷史人物,例如愛因斯坦、皮埃爾·居里(居里夫人的丈夫)等。

從雜亂的網頁到結構化的實體知識,搜尋引擎利用知識圖譜能夠為使用者提供更具條理的資訊,甚至順著知識圖譜可以探索更深入、廣泛和完整的知識體系,讓使用者發現他們意想不到的知識。谷歌高階副總裁艾米特·辛格博士一語道破知識圖譜的重要意義所在:“構成這個世界的是實體,而非字串(things, not strings)”。

圖2.1  谷歌搜尋引擎的知識圖譜

谷歌知識圖譜一出激起千層浪,美國的微軟必應,中國的百度、搜狗等搜尋引擎公司在短短的一年內紛紛宣佈了各自的“知識圖譜”產品,如百度“知心”、搜狗“知立方”等。為什麼這些搜尋引擎巨頭紛紛跟進知識圖譜,在這上面一擲千金,甚至把它視為搜尋引擎的未來呢?這就需要從傳統搜尋引擎的原理講起。以百度為例,在過去當我們想知道“泰山”的相關資訊的時候,我們會在百度上搜索“泰山”,它會嘗試將這個字串與百度抓取的大規模網頁做比對,根據網頁與這個查詢詞的相關程度,以及網頁本身的重要性,對網頁進行排序,作為搜尋結果返回給使用者。而使用者所需的與“泰山”相關的資訊,就還要他們自己動手,去訪問這些網頁來找了。

當然,與搜尋引擎出現之前相比,隨著網路資訊的爆炸式增長,搜尋引擎由於大大縮小了使用者查詢資訊的範圍,日益成為人們遨遊資訊海洋的不可或缺的工具。但是,傳統搜尋引擎的工作方式表明,它只是機械地比對查詢詞和網頁之間的匹配關係,並沒有真正理解使用者要查詢的到底是什麼,遠遠不夠“聰明”,當然經常會被使用者嫌棄了。

而知識圖譜則會將“泰山”理解為一個“實體”(entity),也就是一個現實世界中的事物。這樣,搜尋引擎會在搜尋結果的右側顯示它的基本資料,例如地理位置、海拔高度、別名,以及百科連結等,此外甚至還會告訴你一些相關的“實體”,如嵩山、華山、衡山和恆山等其他三山五嶽等。當然,使用者輸入的查詢詞並不見得只對應一個實體,例如當在谷歌中查詢“apple”(蘋果)時,谷歌不止展示IT巨頭“Apple-Corporation”(蘋果公司)的相關資訊,還會在其下方列出“apple-plant”(蘋果-植物)的另外一種實體的資訊。

很明顯,以谷歌為代表的搜尋引擎公司希望利用知識圖譜為查詢詞賦予豐富的語義資訊,建立與現實世界實體的關係,從而幫助使用者更快找到所需的資訊。谷歌知識圖譜不僅從Freebase和維基百科等知識庫中獲取專業資訊,同時還通過分析大規模網頁內容抽取知識。現在谷歌的這幅知識圖譜已經將5億個實體編織其中,建立了35億個屬性和相互關係,並還在不斷高速擴充。

谷歌知識圖譜正在不斷融入其各大產品中服務廣大使用者。最近,谷歌在Google Play Store的Google Play Movies & TV應用中添加了一個新的功能,當用戶使用安卓系統觀看視訊時,暫停播放,視訊旁邊就會自動彈出該螢幕上人物或者配樂的資訊,如圖2.2所示。這些資訊就是來自谷歌知識圖譜。谷歌會圈出播放器視窗所有人物的臉部,使用者可以點選每一個人物的臉來檢視相關資訊。此前,Google Books 已經應用此功能。

圖2.2  Google利用知識圖譜標示視訊中的人物或配樂資訊

2.2  知識圖譜的構建

最初,知識圖譜是由谷歌推出的產品名稱,寓意與Facebook提出的社交圖譜(Social Graph)異曲同工。由於其表意形象,現在知識圖譜已經被用來泛指各種大規模知識庫了。

我們應當如何構建知識圖譜呢?我們先了解一下,知識圖譜的資料來源都有哪些。知識圖譜的最重要的資料來源之一是以維基百科、百度百科為代表的大規模知識庫,在這些由網民協同編輯構建的知識庫中,包含了大量結構化的知識,可以高效地轉化到知識圖譜中。此外,網際網路的海量網頁中也蘊藏了海量知識,雖然相對知識庫而言這些知識更顯雜亂,但通過自動化技術,也可以將其抽取出來構建知識圖譜。接下來,我們分別詳細介紹這些識圖譜的資料來源。

2.2.1  大規模知識庫

大規模知識庫以詞條作為基本組織單位,每個詞條對應現實世界的某個概念,由世界各地的編輯者義務協同編纂內容。隨著網際網路的普及和Web 2.0理念深入人心,這類協同構建的知識庫,無論是數量、質量還是更新速度,都早已超越傳統由專家編輯的百科全書,成為人們獲取知識的主要來源之一。目前,維基百科已經收錄了超過2200萬詞條,而僅英文版就收錄了超過400萬條,遠超過英文百科全書中最權威的大英百科全書的50萬條,是全球瀏覽人數排名第6的網站。值得一提的是,2012年大英百科全書宣佈停止印刷版發行,全面轉向電子化。這也從一個側面說明線上大規模知識庫的影響力。人們在知識庫中貢獻了大量結構化的知識。如圖2.3所示,是維基百科關於“清華大學”的詞條內容。可以看到,在右側有一個列表,標註了與清華有關的各類重要資訊,如校訓、建立時間、校慶日、學校型別、校長,等等。在維基百科中,這個列表被稱為資訊框(infobox),是由編輯者們共同編輯而成的。資訊框中的結構化資訊是知識圖譜的直接資料來源。

除了維基百科等大規模線上百科外,各大搜索引擎公司和機構還維護和釋出了其他各類大規模知識庫,例如谷歌收購的Freebase,包含3900萬個實體和18億條實體關係;DBpedia是德國萊比錫大學等機構發起的專案,從維基百科中抽取實體關係,包括1千萬個實體和14億條實體關係;YAGO則是德國馬克斯·普朗克研究所發起的專案,也是從維基百科和WordNet等知識庫中抽取實體,到2010年該專案已包含1千萬個實體和1.2億條實體關係。此外,在眾多專門領域還有領域專家整理的領域知識庫。

圖2.3  維基百科詞條“清華大學”部分內容

2.2.2  網際網路連結資料

國際全球資訊網組織W3C在2007年發起了開放互聯資料專案(Linked Open Data,LOD),其釋出資料集示意圖如圖2.4所示。該專案旨在將由互聯文件組成的全球資訊網(Web of documents)擴充套件成由互聯資料組成的知識空間(Web of data)。LOD以RDF(Resource Description Framework)形式在Web上釋出各種開放資料集,RDF是一種描述結構化知識的框架,它將實體間的關係表示為(實體1,關係,實體2)的三元組。LOD還允許在不同來源的資料項之間設定RDF連結,實現語義Web知識庫。目前世界各機構已經基於LOD標準釋出了數千個數據集,包含數千億RDF三元組。隨著LOD專案的推廣和發展,網際網路會有越來越多的資訊以連結資料形式釋出,然而各機構釋出的連結資料之間存在嚴重的異構和冗餘等問題,如何實現多資料來源的知識融合,是LOD專案面臨的重要問題。

圖2.4  開放互聯資料專案釋出資料集示意圖

2.2.3  網際網路網頁文字資料

與整個網際網路相比,維基百科等知識庫仍只能算滄海一粟。因此,人們還需要從海量網際網路網頁中直接抽取知識。與上述知識庫的構建方式不同,很多研究者致力於直接從無結構的網際網路網頁中抽取結構化資訊,如華盛頓大學Oren Etzioni教授主導的“開放資訊抽取”(open information extraction,OpenIE)專案,以及卡耐基梅隆大學Tom Mitchell教授主導的“永不停止的語言學習”(never-ending language learning,NELL)專案。OpenIE專案所開發的演示系統TextRunner已經從1億個網頁中抽取出了5億條事實,而NELL專案也從Web中學習抽取了超過5千萬條事實樣例,如圖2.5所示。

圖2.5  NELL從Web中學習抽取事實樣例

顯而易見,與從維基百科中抽取的知識庫相比,開放資訊抽取從無結構網頁中抽取的資訊準確率還很低,其主要原因在於網頁形式多樣,噪聲資訊較多,資訊可信度較低。因此,也有一些研究者嘗試限制抽取的範圍,例如只從網頁表格等內容中抽取結構資訊,並利用網際網路的多個來源互相印證,從而大大提高抽取資訊的可信度和準確率。當然這種做法也會大大降低抽取資訊的覆蓋面。天下沒有免費的午餐,在大資料時代,我們需要在規模和質量之間尋找一個最佳的平衡點。

2.2.4  多資料來源的知識融合

從以上資料來源進行知識圖譜構建並非孤立地進行。在商用知識圖譜構建過程中,需要實現多資料來源的知識融合。以谷歌最新發布的Knowledge Vault(Dong, et al. 2014)技術為例,其知識圖譜的資料來源包括了文字、DOM Trees、HTML表格、RDF語義資料等多個來源。多來源資料的融合,能夠更有效地判定抽取知識的可信性。

知識融合主要包括實體融合、關係融合和例項融合三類。對於實體,人名、地名、機構名往往有多個名稱。例如“中國行動通訊集團公司”有“中國移動”、“中移動”、“行動通訊”等名稱。我們需要將這些不同名稱規約到同一個實體下。同一個實體在不同語言、不同國家和地區往往會有不同命名,例如著名足球明星Beckham在大陸漢語中稱作“貝克漢姆”,在香港譯作“碧鹹”,而在臺灣則被稱為“貝克漢”。與此對應的,同一個名字在不同語境下可能會對應不同實體,這是典型的一詞多義問題,例如“蘋果”有時是指一種水果,有時則指的是一家著名IT公司。在這樣複雜的多對多對應關係中,如何實現實體融合是非常複雜而重要的課題。如前面開放資訊抽取所述,同一種關係可能會有不同的命名,這種現象在不同資料來源中抽取出的關係中尤其顯著。與實體融合類似,關係融合對於知識融合至關重要。在實現了實體和關係融合之後,我們就可以實現三元組例項的融合。不同資料來源會抽取出相同的三元組,並給出不同的評分。根據這些評分,以及不同資料來源的可信度,我們就可以實現三元組例項的融合與抽取。

知識融合既有重要的研究挑戰,又需要豐富的工程經驗。知識融合是實現大規模知識圖譜的必由之路。知識融合的好壞,往往決定了知識圖譜專案的成功與否,值得任何有志於大規模知識圖譜構建與應用的人士高度重視。

2.3  知識圖譜的典型應用

知識圖譜將搜尋引擎從字串匹配推進到實體層面,可以極大地改進搜尋效率和效果,為下一代搜尋引擎的形態提供了巨大的想象空間。知識圖譜的應用前景遠不止於此,目前知識圖譜已經被廣泛應用於以下幾個任務中。

2.3.1  查詢理解(Query Understanding

谷歌等搜尋引擎巨頭之所以致力於構建大規模知識圖譜,其重要目標之一就是能夠更好地理解使用者輸入的查詢詞。使用者查詢詞是典型的短文字(short text),一個查詢詞往往僅由幾個關鍵詞構成。傳統的關鍵詞匹配技術沒有理解查詢詞背後的語義資訊,查詢效果可能會很差。

例如,對於查詢詞“李娜大滿貫”,如果僅用關鍵詞匹配的方式,搜尋引擎根本不懂使用者到底希望尋找哪個“李娜”,而只會機械地返回所有含有“李娜”這個關鍵詞的網頁。但通過利用知識圖譜識別查詢詞中的實體及其屬性,搜尋引擎將能夠更好地理解使用者搜尋意圖。現在,我們到谷歌中查詢“李娜大滿貫”,會發現,首先谷歌會利用知識圖譜在頁面右側呈現中國網球運動員李娜的基本資訊,我們可以知道這個李娜是指中國網球女運動員。同時,谷歌不僅像傳統搜尋引擎那樣返回匹配的網頁,更會直接在頁面最頂端返回李娜贏得大滿貫的次數“2”,如圖2.6所示。

圖2.6  谷歌中對“李娜大滿貫”的查詢結果

主流商用搜索引擎基本都支援這種直接返回查詢結果而非網頁的功能,這背後都離不開大規模知識圖譜的支援。以百度為例,圖2.7是百度中對“珠穆朗瑪峰高度”的查詢結果,百度直接告訴使用者珠穆朗瑪峰的高度是8844.43米。

圖2.7  百度中對“珠穆朗瑪峰高度”的查詢結果

基於知識圖譜,搜尋引擎還能獲得簡單的推理能力。例如,圖2.8是百度中對“梁啟超的兒子的妻子”的查詢結果,百度能夠利用知識圖譜知道梁啟超的兒子是樑思成,樑思成的妻子是林徽因等人。

採用知識圖譜理解查詢意圖,不僅可以返回更符合使用者需求的查詢結果,還能更好地匹配商業廣告資訊,提高廣告點選率,增加搜尋引擎受益。因此,知識圖譜對搜尋引擎公司而言,是一舉多得的重要資源和技術。

2.3.2  自動問答(Question Answering

人們一直在探索比關鍵詞查詢更高效的網際網路搜尋方式。很多學者預測,下一代搜尋引擎將能夠直接回答人們提出的問題,這種形式被稱為自動問答。例如著名計算機學者、美國華盛頓大學電腦科學與工程系教授、圖靈中心主任Oren Etzioni於2011年就在Nature雜誌上發表文章“搜尋需要一場變革“(Search Needs a Shake-Up)。該文指出,一個可以理解使用者問題,從網路資訊中抽取事實,並最終選出一個合適答案的搜尋引擎,才能將我們帶到資訊獲取的制高點。如上節所述,目前搜尋引擎已經支援對很多查詢直接返回精確答案而非海量網頁而已。

關於自動問答,我們將有專門的章節介紹。這裡,我們需要著重指出的是,知識圖譜的重要應用之一就是作為自動問答的知識庫。在搜狗推出中文知識圖譜服務“知立方”的時候,曾經以回答“梁啟超的兒子的太太的情人的父親是誰?”這種近似腦筋急轉彎似的問題作為案例,來展示其知識圖譜的強大推理能力(搜狗知立方服務的例項如圖2.9所示)。雖然大部分使用者不會這樣拐彎抹角地提問,但人們會經常需要尋找諸如“劉德華的妻子是誰?”、“侏羅紀公園的主演是誰?”、“姚明的身高?”以及“北京有幾個區?”等問題的答案。而這些問題都需要利用知識圖譜中實體的複雜關係推理得到。無論是理解使用者查詢意圖,還是探索新的搜尋形式,都毫無例外地需要進行語義理解和知識推理,而這都需要大規模、結構化的知識圖譜的有力支援,因此知識圖譜成為各大網際網路公司的必爭之地。

圖2.9  搜狗知立方服務

最近,微軟聯合創始人Paul Allen投資建立了艾倫人工智慧研究院(Allen Institute for Artificial Intelligence),致力於建立具有學習、推理和閱讀能力的智慧系統。2013年底,Paul Allen任命Oren Etzioni教授擔任艾倫人工智慧研究院的執行主任,該任命所釋放的訊號頗值得我們思考。

2.3.3  文件表示(Document Representation

經典的文件表示方案是空間向量模型(Vector Space Model),該模型將文件表示為詞彙的向量,而且採用了詞袋(Bag-of-Words,BOW)假設,不考慮文件中詞彙的順序資訊。這種文件表示方案與上述的基於關鍵詞匹配的搜尋方案相匹配,由於其表示簡單,效率較高,是目前主流搜尋引擎所採用的技術。文件表示是自然語言處理很多工的基礎,如文件分類、文件摘要、關鍵詞抽取,等等。

經典文件表示方案已經在實際應用中暴露出很多固有的嚴重缺陷,例如無法考慮詞彙之間的複雜語義關係,無法處理對短文字(如查詢詞)的稀疏問題。人們一直在嘗試解決這些問題,而知識圖譜的出現和發展,為文件表示帶來新的希望,那就是基於知識的文件表示方案。一篇文章不再只是由一組代表詞彙的字串來表示,而是由文章中的實體及其複雜語義關係來表示(Schuhmacher, et al. 2014)。該文件表示方案實現了對文件的深度語義表示,為文件深度理解打下基礎。一種最簡單的基於知識圖譜的文件表示方案,可以將文件表示為知識圖譜的一個子圖(sub-graph),即用該文件中出現或涉及的實體及其關係所構成的圖表示該文件。這種知識圖譜的子圖比詞彙向量擁有更豐富的表示空間,也為文件分類、文件摘要和關鍵詞抽取等應用提供了更豐富的可供計算和比較的資訊。

知識圖譜為計算機智慧資訊處理提供了巨大的知識儲備和支援,將讓現在的技術從基於字串匹配的層次提升至知識理解層次。以上介紹的幾個應用可以說只能窺豹一斑。知識圖譜的構建與應用是一個龐大的系統工程,其所蘊藏的潛力和可能的應用,將伴隨著相關技術的日漸成熟而不斷湧現。

2.4  知識圖譜的主要技術

大規模知識圖譜的構建與應用需要多種智慧資訊處理技術的支援,以下簡單介紹其中若干主要技術。

2.4.1  實體鏈指(Entity Linking

網際網路網頁,如新聞、部落格等內容裡涉及大量實體。大部分網頁本身並沒有關於這些實體的相關說明和背景介紹。為了幫助人們更好地瞭解網頁內容,很多網站或作者會把網頁中出現的實體連結到相應的知識庫詞條上,為讀者提供更詳盡的背景材料。這種做法實際上將網際網路網頁與實體之間建立了連結關係,因此被稱為實體鏈指。

手工建立實體連結關係非常費力,因此如何讓計算機自動實現實體鏈指,成為知識圖譜得到大規模應用的重要技術前提。例如,谷歌等在搜尋引擎結果頁面呈現知識圖譜時,需要該技術自動識別使用者輸入查詢詞中的實體並連結到知識圖譜的相應節點上。

實體鏈指的主要任務有兩個,實體識別(Entity Recognition)與實體消歧(Entity Disambiguation),都是自然語言處理領域的經典問題。

實體識別旨在從文字中發現命名實體,最典型的包括人名、地名、機構名等三類實體。近年來,人們開始嘗試識別更豐富的實體型別,如電影名、產品名,等等。此外,由於知識圖譜不僅涉及實體,還有大量概念(concept),因此也有研究者提出對這些概念進行識別。

不同環境下的同一個實體名稱可能會對應不同實體,例如“蘋果”可能指某種水果,某個著名IT公司,也可能是一部電影。這種一詞多義或者歧義問題普遍存在於自然語言中。將文件中出現的名字連結到特定實體上,就是一個消歧的過程。消歧的基本思想是充分利用名字出現的上下文,分析不同實體可能出現在該處的概率。例如某個文件如果出現了iphone,那麼“蘋果”就有更高的概率指向知識圖譜中的叫“蘋果”的IT公司。

實體鏈指並不侷限於文字與實體之間,如圖2.10所示,還可以包括影象、社交媒體等資料與實體之間的關聯。可以看到,實體鏈指是知識圖譜構建與應用的基礎核心技術。

圖2.10  實體鏈指實現實體與文字、影象、社交媒體等資料的關聯

2.4.2  關係抽取(Relation Extraction

構建知識圖譜的重要來源之一是從網際網路網頁文字中抽取實體關係。關係抽取是一種典型的資訊抽取任務。

典型的開放資訊抽取方法採用自舉(bootstrapping)的思想,按照“模板生成=>例項抽取”的流程不斷迭代直至收斂。例如,最初可以通過“X是Y的首都”模板抽取出(中國,首都,北京)、(美國,首都,華盛頓)等三元組例項;然後根據這些三元組中的實體對“中國-北京”和“美國-華盛頓”可以發現更多的匹配模板,如“Y的首都是X”、“X是Y的政治中心”等等;進而用新發現的模板抽取更多新的三元組例項,通過反覆迭代不斷抽取新的例項與模板。這種方法直觀有效,但也面臨很多挑戰性問題,如在擴充套件過程中很容易引入噪聲例項與模板,出現語義漂移現象,降低抽取準確率。研究者針對這一問題提出了很多解決方案:提出同時擴充套件多個互斥類別的知識,例如同時擴充套件人物、地點和機構,要求一個實體只能屬於一個類別;也有研究提出引入負例項來限制語義漂移。

我們還可以通過識別表達語義關係的短語來抽取實體間關係。例如,我們通過句法分析,可以從文字中發現“華為”與“深圳”的如下關係:(華為,總部位於,深圳)、(華為,總部設置於,深圳)、以及(華為,將其總部建於,深圳)。通過這種方法抽取出的實體間關係非常豐富而自由,一般是一個以動詞為核心的短語。該方法的優點是,我們無需預先人工定義關係的種類,但這種自由度帶來的代價是,關係語義沒有歸一化,同一種關係可能會有多種不同的表示。例如,上述發現的“總部位於”、“總部設置於”以及“將其總部建於”等三個關係實際上是同一種關係。如何對這些自動發現的關係進行聚類歸約是一個挑戰性問題。

我們還可以將所有關係看做分類標籤,把關係抽取轉換為對實體對的關係分類問題。這種關係抽取方案的主要挑戰在於缺乏標註語料。2009年斯坦福大學的研究者提出遠端監督(Distant Supervision)思想,使用知識圖譜中已有的三元組例項啟發式地標註訓練語料。遠端監督思想的假設是,每個同時包含兩個實體的句子,都表述了這兩個實體在知識庫中的對應關係。例如,根據知識圖譜中的三元組例項(蘋果,創始人,喬布斯)和(蘋果,CEO,庫克),我們可以將以下四個包含對應實體對的句子分別標註為包含“創始人”和“CEO”關係:

我們將知識圖譜三元組中每個實體對看做待分類樣例,將知識圖譜中實體對關係看做分類標籤。通過從出現該實體對的所有句子中抽取特徵,我們可以利用機器學習分類模型(如最大熵分類器、SVM等)構建資訊抽取系統。對於任何新的實體對,根據所出現該實體對的句子中抽取的特徵,我們就可以利用該資訊抽取系統自動判斷其關係。遠端監督能夠根據知識圖譜自動構建大規模標註語料庫,因此取得了矚目的資訊抽取效果。

與自舉思想面臨的挑戰類似,遠端監督方法會引入大量噪聲訓練樣例,嚴重損害模型準確率。例如,對於(蘋果,創始人,喬布斯)我們可以從文字中匹配以下四個句子:

在這四個句子中,前兩個句子的確表明蘋果與喬布斯之間的創始人關係;但是,後兩個句子則並沒有表達這樣的關係。很明顯,由於遠端監督只能機械地匹配出現實體對的句子,因此會大量引入錯誤訓練樣例。為了解決這個問題,人們提出了很多去除噪聲例項的辦法,來提升遠端監督效能。例如,研究發現,一個正確訓練例項往往位於語義一致的區域,也就是其周邊的例項應當擁有相同的關係;也有研究提出利用因子圖、矩陣分解等方法,建立資料內部的關聯關係,有效實現降低噪聲的目標。

關係抽取是知識圖譜構建的核心技術,它決定了知識圖譜中知識的規模和質量。關係抽取是知識圖譜研究的熱點問題,還有很多挑戰性問題需要解決,包括提升從高噪聲的網際網路資料中抽取關係的魯棒性,擴大抽取關係的型別與抽取知識的覆蓋面,等等。

2.4.3  知識推理(Knowledge Reasoning

推理能力是人類智慧的重要特徵,能夠從已有知識中發現隱含知識。推理往往需要相關規則的支援,例如從“配偶”+“男性”推理出“丈夫”,從“妻子的父親”推理出“岳父”,從出生日期和當前時間推理出年齡,等等。

這些規則可以通過人們手動總結構建,但往往費時費力,人們也很難窮舉複雜關係圖譜中的所有推理規則。因此,很多人研究如何自動挖掘相關推理規則或模式。目前主要依賴關係之間的同現情況,利用關聯挖掘技術來自動發現推理規則。

實體關係之間存在豐富的同現資訊。如圖2.11所示,在康熙、雍正和乾隆三個人物之間,我們有(康熙,父親,雍正)、(雍正,父親,乾隆)以及(康熙,祖父,乾隆)三個例項。根據大量類似的實體X、Y、Z間出現的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)例項,我們可以統計出“父親+父親=>祖父”的推理規則。類似地,我們還可以根據大量(X,首都,Y)和(X,位於,Y)例項統計出“首都=>位於”的推理規則,根據大量(X,總統,美國)和(X,是,美國人)統計出“美國總統=>是美國人”的推理規則。

圖2.11  知識推理舉例

知識推理可以用於發現實體間新的關係。例如,根據“父親+父親=>祖父”的推理規則,如果兩實體間存在“父親+父親”的關係路徑,我們就可以推理它們之間存在“祖父”的關係。利用推理規則實現關係抽取的經典方法是Path Ranking AlgorithmLao &Cohen2010),該方法將每種不同的關係路徑作為一維特徵,通過在知識圖譜中統計大量的關係路徑構建關係分類的特徵向量,建立關係分類器進行關係抽取,取得不錯的抽取效果,成為近年來的關係抽取的代表方法之一。但這種基於關係的同現統計的方法,面臨嚴重的資料稀疏問題。

在知識推理方面還有很多的探索工作,例如採用謂詞邏輯(Predicate Logic)等形式化方法和馬爾科夫邏輯網路(Markov Logic Network)等建模工具進行知識推理研究。目前來看,這方面研究仍處於百家爭鳴階段,大家在推理表示等諸多方面仍未達成共識,未來路徑有待進一步探索。

2.4.4  知識表示(Knowledge Representation

在計算機中如何對知識圖譜進行表示與儲存,是知識圖譜構建與應用的重要課題。

如“知識圖譜”字面所表示的含義,人們往往將知識圖譜作為複雜網路進行儲存,這個網路的每個節點帶有實體標籤,而每條邊帶有關係標籤。基於這種網路的表示方案,知識圖譜的相關應用任務往往需要藉助於圖演算法來完成。例如,當我們嘗試計算兩實體之間的語義相關度時,我們可以通過它們在網路中的最短路徑長度來衡量,兩個實體距離越近,則越相關。而面向“梁啟超的兒子的妻子”這樣的推理查詢問題時,則可以從“梁啟超”節點出發,通過尋找特定的關係路徑“梁啟超->兒子->妻子->?”,來找到答案。

然而,這種基於網路的表示方法面臨很多困難。首先,該表示方法面臨嚴重的資料稀疏問題,對於那些對外連線較少的實體,一些圖方法可能束手無策或效果不佳。此外,圖演算法往往計算複雜度較高,無法適應大規模知識圖譜的應用需求。

最近,伴隨著深度學習和表示學習的革命性發展,研究者也開始探索麵向知識圖譜的表示學習方案。其基本思想是,將知識圖譜中的實體和關係的語義資訊用低維向量表示,這種分散式表示(Distributed Representation)方案能夠極大地幫助基於網路的表示方案。其中,最簡單有效的模型是最近提出的TransE(Bordes, et al. 2013)。TransE基於實體和關係的分散式向量表示,將每個三元組例項(head,relation,tail)中的關係relation看做從實體head到實體tail的翻譯,通過不斷地調整h、r和t(head、relation和tail的向量),使(h + r)儘可能與t相等,即h + r = t。該優化目標如圖2.12所示。

圖2.12  基於分散式表示的知識表示方案

通過TransE等模型學習得到的實體和關係向量,能夠在很大程度上緩解基於網路表示方案的稀疏性問題,應用於很多重要任務中。

首先,利用分散式向量,我們可以通過歐氏距離或餘弦距離等方式,很容易地計算實體間、關係間的語義相關度。這將極大地改進開放資訊抽取中實體融合和關係融合的效能。通過尋找給定實體的相似實體,還可用於查詢擴充套件和查詢理解等應用。

其次,知識表示向量可以用於關係抽取。以TransE為例,由於我們的優化目標是讓h+r=t,因此,當給定兩個實體h和t的時候,我們可以通過尋找與t-h最相似的r,來尋找兩實體間的關係。(Bordes, et al. 2013)中的實驗證明,該方法的抽取效能較高。而且我們可以發現,該方法僅需要知識圖譜作為訓練資料,不需要外部的文字資料,因此這又稱為知識圖譜補全(Knowledge Graph Completion),與複雜網路中的連結預測(Link Prediction)類似,但是要複雜得多,因為在知識圖譜中每個節點和連邊上都有標籤(標記實體名和關係名)。

最後,知識表示向量還可以用於發現關係間的推理規則。例如,對於大量X、Y、Z間出現的(X,父親,Y)、(Y,父親,Z)以及(X,祖父,Z)例項,我們在TransE中會學習X+父親=Y,Y+父親=Z,以及X+祖父=Z等目標。根據前兩個等式,我們很容易得到X+父親+父親=Z,與第三個公式相比,就能夠得到“父親+父親=>祖父”的推理規則。前面我們介紹過,基於關係的同現統計學習推理規則的思想,存在嚴重的資料稀疏問題。如果利用關係向量表示提供輔助,可以顯著緩解稀疏問題。

2.5  前景與挑戰

如果未來的智慧機器擁有一個大腦,知識圖譜就是這個大腦中的知識庫,對於大資料智慧具有重要意義,將對自然語言處理、資訊檢索和人工智慧等領域產生深遠影響。

現在以商業搜尋引擎公司為首的網際網路巨頭已經意識到知識圖譜的戰略意義,紛紛投入重兵佈局知識圖譜,並對搜尋引擎形態日益產生重要的影響。同時,我們也強烈地感受到,知識圖譜還處於發展初期,大多數商業知識圖譜的應用場景非常有限,例如搜狗知立方更多聚焦在娛樂和健康等領域。根據各搜尋引擎公司提供的報告來看,為了保證知識圖譜的準確率,仍然需要在知識圖譜構建過程中採用較多的人工干預。

可以看到,在未來的一段時間內,知識圖譜將是大資料智慧的前沿研究問題,有很多重要的開放性問題亟待學術界和產業界協力解決。我們認為,未來知識圖譜研究有以下幾個重要挑戰。

1. 知識型別與表示。知識圖譜主要採用(實體1,關係,實體2)三元組的形式來表示知識,這種方法可以較好地表示很多事實性知識。然而,人類知識型別豐富多樣,面對很多複雜知識,三元組就束手無策了。例如,人們的購物記錄資訊,新聞事件等,包含大量實體及其之間的複雜關係,更不用說人類大量的涉及主觀感受、主觀情感和模糊的知識了。有很多學者針對不同場景設計了不同的知識表示方法。知識表示是知識圖譜構建與應用的基礎,如何合理設計表示方案,更好地涵蓋人類不同型別的知識,是知識圖譜的重要研究問題。最近認知領域關於人類知識型別的探索(Tenenbaum, et al. 2011)也許會對知識表示研究有一定啟發作用。

2. 知識獲取。如何從網際網路大資料萃取知識,是構建知識圖譜的重要問題。目前已經提出各種知識獲取方案,並已經成功抽取出大量有用的知識。但在抽取知識的準確率、覆蓋率和效率等方面,都仍不盡如人意,有極大的提升空間。

3. 知識融合。從不同來源資料中抽取的知識可能存在大量噪聲和冗餘,或者使用了不同的語言。如何將這些知識有機融合起來,建立更大規模的知識圖譜,是實現大資料智慧的必由之路。

4. 知識應用。目前大規模知識圖譜的應用場景和方式還比較有限,如何有效實現知識圖譜的應用,利用知識圖譜實現深度知識推理,提高大規模知識圖譜計算效率,需要人們不斷銳意發掘使用者需求,探索更重要的應用場景,提出新的應用演算法。這既需要豐富的知識圖譜技術積累,也需要對人類需求的敏銳感知,找到合適的應用之道。

2.6  內容回顧與推薦閱讀

本章系統地介紹了知識圖譜的產生背景、資料來源、應用場景和主要技術。通過本章我們主要有以下結論:

— 知識圖譜是下一代搜尋引擎、自動問答等智慧應用的基礎設施。

— 網際網路大資料是知識圖譜的重要資料來源。

— 知識表示是知識圖譜構建與應用的基礎技術。

— 實體鏈指、關係抽取和知識推理是知識圖譜構建與應用的核心技術。

知識圖譜與本體(Ontology)和語義網(Semantic Web)等密切相關,有興趣的讀者可以搜尋與之相關的文獻閱讀。知識表示(KnowledgeRepresentation)是人工智慧的重要課題,讀者可以通過人工智慧專著(Russell & Norvig 2009)瞭解其發展歷程。在關係抽取方面,讀者可以閱讀(Nauseates, etal. 2013)、(Nickel, et al. 2015)詳細瞭解相關技術。

2.7  參考文獻

[1] (Bordes, et al. 2013) Bordes, A.,Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translatingembeddings for modeling multi-relational data. In Proceedings of NIPS.

[2] (Dong, et al. 2014) Dong, X., Gabrilovich,E., Heitz, G., Horn, W., et al. Knowledge Vault A web-scale approach toprobabilistic knowledge fusion. In Proceedings of KDD.

[3]   (Lao & Cohen 2010) Lao, N., & Cohen, W. W. (2010). Relationalretrieval using a combination of path-constrained random walks. Machinelearning, 81(1), 53-67.

[4]   (Nauseates,et al. 2013) Nastase, V., Nakov, P., Seaghdha, D. O., & Szpakowicz, S. (2013). Semanticrelations between nominals. Synthesis Lectures on Human Language Technologies,6(1), 1-119.

[5]   (Nickel,et al. 2015) Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of RelationalMachine Learning for Knowledge Graphs.

[6] (Russell & Norvig 2009) Russell, S., & Norvig, P. (2009). ArtificialIntelligence: A Modern Approach, 3rd Edition. Pearson Press.(中文譯名:人工智慧——一種現代方法).

[7]   (Schuhmacher,et al. 2014) Schuhmacher, M., & Ponzetto, S. P. Knowledge-based graphdocument modeling. In Proceedings of the 7th ACM international conference onWeb search and data mining. In Proceedings of WSDM.