1. 程式人生 > >知識圖譜(Knowledge Graph, KG)(王昊奮老師-課程學習筆記)

知識圖譜(Knowledge Graph, KG)(王昊奮老師-課程學習筆記)

主要內容:
1、知識圖譜的概念
2、典型知識庫介紹(簡)
3、知識圖譜技術概覽
4、典型案例簡介

知識圖譜(KG)的概念

知識圖譜(KG)得益於Web的發展(更多的是資料層面),有著來源於KR、NLP、Web、AI多個方面的基因。知識圖譜(KG)的概念演化如圖:
KG的概念演化圖

知識圖譜是2012年後的提法,基礎還是語義網本體論

知識圖譜的本質包含:
一、 知識表示——Knowledge Representation
二、 基於知識表示的知識庫——Knowledge Base
知識庫的來源:知識構建、知識抽取、知識融合
知識庫怎麼用:語義搜尋、知識問答

知識圖譜由文字(Texts、Documents)的連結到物件(Objects)的連結。

知識圖譜(KG)的作用:
1、輔助搜尋
2、輔助問答
3、輔助決策
4、輔助AI:常識推理

知識圖譜的深度學習的區別:
人的大腦依賴所學的知識進行思考、邏輯推理、理解語言。
可以將深度學習知識圖譜比作是“聰明的AI”和“有學識的AI”。
1、深度學習:主要是【學習】能力,通過強大的計算能力,感知、識別、判斷來進行學習。
2、知識圖譜:主要是【推理】能力,通過已有的規則和知識,思考、語言、推理來進行學習。
深度學習VS知識圖譜

典型知識庫介紹(簡)

典型知識庫有:
CYC知識庫:常識知識庫,最初目標是建立人類最大的常識知識庫。
Wordnet:詞典知識庫,主要用於詞義消歧。
ConceptNet:常識資料庫,最早源於MIT媒體實驗室,主要依靠網際網路眾包、專家建立和遊戲三種方法來構建。知識庫以三元組形式的關係型知識構成。側重詞與詞之間的關係。ConceptNet完全免費開放,並支援多種語言。
Freebase:完全免費並允許商業化的開放許可協議。通過開源免費吸引吸引使用者貢獻資料,增值的應用及技術服務收費。
Wikidata:目標是構建全世界最大的免費知識庫,但是仍然面臨知識缺失嚴重的問題。
DBPedia:早期的語義網專案,意指資料庫版本的Wikipedia,是從Wikipedia抽取出來的連結資料集。
YAGO:集成了Wikipedia、WordNet、GeoNames三個來源的資料。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述。
Babelnet:類似於WordNet的多語言詞典知識庫,目標是解決WordNet在非英語語種中資料缺乏的問題。
NELL:是卡內基梅隆大學開發的知識庫,主要採用網際網路挖掘的方法從WEB自動抽取三元組知識。
微軟的Concept Graph:以概念層次體系為中心的知識圖譜。與Freebase等知識圖譜不同,Concept Graph是以概念定義和概念之間的IsA關係為主。
OpenKG:中文知識圖譜資源庫。


cnSchema:開放的中文知識圖譜Schema

知識圖譜技術概覽

知識圖譜的技術體系如圖:
知識圖譜的技術體系

1、知識表示

知識表示研究怎樣用計算機符號來表示人腦中的知識,以及怎樣通過符號之間的運算來模擬人腦的推理過程。

知識圖譜的離散式表示:
RDF、RDF Graph、RDFS、RDF的序列化格式、OWL、OWL extends RDF Schema、SPARQL、JSON-LD(資料交換格式)、RDFa HTML5 MicroData(在網頁中嵌入語義資料)、
知識圖譜的分散式表示:
KG Embedding

2、知識抽取:NLP+KR

知識抽取的主要方法:
(1).知識工程:正則表示式、模板匹配、規則約束
(2).基於本體的抽取:知識挖掘(推理)
(3).基於模型的抽取:模型、訓練

3、知識儲存

知識比資料的結構更加複雜,知識的儲存需要綜合考慮圖的特點、複雜的知識結構儲存、索引和查詢(支援推理)的優化等問題。

典型的知識儲存引擎分為基於關係資料庫的儲存和基於原生圖的儲存

在實踐中,多為混合儲存結構,圖儲存並非必須

4、知識問答

KBQA(Knowledge-Based Question Answering,基於知識庫的問題回答)以直接而準確的方式回答使用者自然語言提問的自動問答系統將構成下一代搜素引擎的基本形態。

5、知識推理

簡單而言,推理是指基於已知事實推出未知的事實的計算過程。

大部分搜尋引擎目前都已經支援了一定的推理能力。例如:在百度搜索中輸入“姚明的女兒的媽媽的老公”,會發現搜尋結果還是姚明。

知識推理可以按照解決方法推理型別進行分類。如圖:
知識推理型別
基於描述邏輯的推理:本體推理

描述邏輯(description logic)是一種用於知識表示的邏輯語言和以其為物件的推理方法,主要用於描述概念分類及其概念之間的關係。
描述邏輯是當前語義網發展中本體的理論基礎。

基於統計規則挖掘的推理
基於表示學習的推理-Representational Learning

6、知識融合

知識融合是指在不同資料集中找出同一個實體的描述記錄,主要目的是對不同資料來源中的實體資訊進行整合,形成更加全面的實體資訊。

知識融合的典型工具:Dedupe

Dedupe,基於Python的工具包,實現了包括fuzzy matching,deduplication,entity resolution在內的常見任務。主要處理流程是先對所有records通過Clustering/Blocking的方法進行分組,然後在組內部通過計算相似度特徵和機器學習分類模型對任意一對records進行預測是否為同一實體。

適合於兩個資料集有相似的結構,如果兩個資料集的實體屬性個數差異很大,不建議採用。

知識融合:典型工具-LIMES

專門針對連結資料Linked Data設計的連結框雜,不要求兩個資料集的實體具有相似的結構。可靈活配置匹配規則,自定義距離計算模型,也支援基於Active Learning的機器學習方法

7、知識眾包

Wikibase
Schema.ORG

典型案例簡介

知識圖譜的案例涉及:醫療健康、金融、電商、出版、農業、政府、電信、數字圖書館等領域。

下面以圖片的形式進行展示:
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述

以上是學習王昊奮的《知識圖譜》課程的第一課的總結學習筆記。理解了課程的總體框架後,我對知識圖譜和我所要研究的本體技術的關係有了較為清晰的認識,剩下的內容會根據自己的研究內容進行選擇性學習。