1. 程式人生 > >知識圖譜學習與實踐(1)——知識圖譜的演化過程

知識圖譜學習與實踐(1)——知識圖譜的演化過程

 1 引言

知識圖譜是一個包含很多技術內容的知識體系,總的來說,是處理關聯的知識,核心是資料,但強調了資料之間的關聯關係。簡單來看,可以認為是資料庫或知識庫,和語義網有著千絲萬縷的聯絡。知識圖譜是由谷歌首先提出來的,用於優化它的搜尋能力,之後,獲得了蓬勃的發展,研究的人也越來越多。

知識圖譜的出現,不是一蹴而就的,有一個緩慢演進的過程,包括現在,也還在發展中。知識圖譜的發展,可以從多個方面進行闡述,比如開放連結資料的思想,知識表示,知識推理,知識儲存等,伴隨著資訊科技特別是人工智慧技術的發展,知識圖譜不斷融合新的技術,不斷髮展和完善。此處主要講述知識圖譜理論的形成過程。

2 資訊機器Memex

1945年,一個美國科學家Vannevar Bush在《大西洋月刊》上發表了一篇文章《As We May Think》,提出一種資訊機器的構想,就像下圖中的樣子。

在Bush博士的設想中,這種機器還可以與圖書館聯網。通過某種機制,將圖書館收藏的膠捲,自動裝載到本地機器上。因此,只通過這一個機器,就可以實現海量的資訊檢索。他將這種機器命名為Memex,也就是“memory extender”這兩個單詞詞首的組合,意思是“記憶的延伸”。

文中描述了對這種機器的設想,“Wholly new forms of encyclopedias will appear, ready-made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified.”

這個設想的影響非常大,後來許多早期的計算機論文中都提到了這個機器。然後,文中關於資訊切換的描述,直接啟發了“超文字協議”(hypertext)的發明。現在,我們在網際網路上不同的連結之間跳轉,其源頭都可以追溯到這篇文章。

3 以超連結為主的WEB

1989年3 月,蒂姆·伯納·李爵士(Tim Berners-Lee)向CERN遞交了一份立項建議書,建議採用超文字技術(Hypertext)把CERN內部的各個實驗室連線起來,在系統建成後,將可能擴充套件到全世界。

 

 

在建議書中,有一段話以超文字為核心的web,比利用層級結構的方式,更容易讓熱接受和傳播。

This is why a "web" of notes with links (like references) between them is far more useful than a fixed hierarchical system. When describing a complex system, many people resort to diagrams with circles and arrows. Circles and arrows leave one free to describe the interrelationships between things in a way that tables, for example, do not. The system we need is like a diagram of circles and arrows, where circles and arrows can stand for anything.

文中說明了超文字利用圓圈和箭頭可以自由的描述任何事物,比使用層級結構的表格要靈活的多,特別是描述複雜系統,作用更加突出,這就是超文字的作用。這個思想也是現在比較流行的思維導圖的核心思想,利用發散思維,建立聯絡。

4 以連結資料為核心的語義網

        語義網的概念也是由全球資訊網聯盟的蒂姆在1998年提出,它的核心是通過給全球資訊網上的文件 (如:HTML文件、XML文件)新增能夠被計算機所理解的語義“元資料”(外語:Meta data),從而使整個網際網路成為一個通用的資訊交換媒介。

語義網不同於現在WWW,現有的WWW是面向文件而語義網則面向文件所表示的資料,而語義網更重視於計算機“理解與處理”,並且具有一定的判斷、推理能力。

2006年蒂姆·伯納斯-李在普林斯頓大學演講和後期接受媒體採訪時公開表示,他最初將這種智慧網路命名為語義網或許不夠貼切,也許更準確的名稱應該是資料網(外語:Data Web)。

 

 

5 谷歌知識圖譜,things, not strings

連結資料不斷積累,資料量以幾何量級增長,如何更好的使用這些資料,搜尋引擎公司Google提出了知識圖譜的概念。辛格博士曾經說過,The world is not made of strings , but is made of things. 

知識圖譜的提出,目的在於更好的利用開放連結資料,將搜尋字串變為搜尋真實世界中的事物,將一個事物通過內部特徵(屬性)和外部聯絡(關係),立體的呈現在人們面前,將知識圖譜看作一張以關聯關係為主的巨大圖譜,圖譜中,點代表客觀事物,邊代表了事物的屬性或關係。

 

6 結語

在知識圖譜的演進過程中,還有很多思想和技術起到了非常大的作用,比如本體論,本來是哲學中的概念,被引入到知識圖譜中,用來指導知識表示,使得知識圖譜的知識表示更加規範,能夠為計算機所理解,在知識圖譜發展中起到了不可或缺的作用。

&n