1. 程式人生 > >技術文章 | 專案實戰:如何構建知識圖譜

技術文章 | 專案實戰:如何構建知識圖譜

本文來源於阿里雲-雲棲社群,原文點選這裡

實踐了下怎麼建一個簡單的知識圖譜,兩個版本,一個從 0 開始(start from scratch),一個在 CN-DBpedia 基礎上補充,把 MySQL,PostgreSQL,Neo4j 資料庫都嘗試了下。自己跌跌撞撞摸索可能踩坑了都不知道,歡迎討論。

知識庫可以分為兩種型別,一種是以 Freebase,Yago2 為代表的 Curated KBs,主要從維基百科和 WordNet 等知識庫中抽取大量的實體及實體關係,像是一種結構化的維基百科。另一種是以 Stanford OpenIE,和我們學校 Never-Ending Language Learning (NELL) 為代表的 Extracted KBs,直接從上億個非結構化網頁中抽取實體關係三元組。

與 Freebase 相比,這樣得到的知識更加多樣性,但同時精確度要低於 Curated KBs,因為實體關係和實體更多的是自然語言的形式,如“奧巴馬出生在火奴魯魯。” 可以被表示為(“Obama”, “was also born in”, “ Honolulu”)。


image
image


上圖分別是 CN-DBpedia 的構建流程和系統架構。知識圖譜的構建是一個浩大的工程,從大方面來講,分為知識獲取、知識融合、知識驗證、知識計算和應用幾個部分,也就是上面架構圖從下往上走的一個流程,簡單來走一下這個流程。

 展開全文