1. 程式人生 > >明略科學院院長、IEEE Fellow吳信東:大資料知識工程基礎理論 | 直播課筆記

明略科學院院長、IEEE Fellow吳信東:大資料知識工程基礎理論 | 直播課筆記

不久前,明略資料成立明略科學院,並由明略科學院院長吳信東教授帶來第一講:《大資料知識工程基礎理論及其應用》相關分享。

吳信東教授是國家“千人計劃”特聘專家,長江學者,IEEE & AAAS Fellow,資料探勘研究與應用領域的頂級科學家。

640?wx_fmt=jpeg

在分享中吳信東教授講解了新環境下大資料技術應用研究成果,與大家共同探討了大資料的科學難題及解決方法,分享了科技部大知識的研究方案。

以下為吳信東教授分享內容,由明略資料整理:

大資料、大知識、大智慧是三個臺階,大資料研究公認為是從美國啟動的。

從大資料來凝練大知識,是華人學者啟動的一個臺階,2016年我牽頭,聯合國內15家單位在科技部開始做一個重點研發計劃的專項專案,叫大資料知識工程。我是這個專案的首席科學家,包括合肥工業大學、中科院與系統科學研究院,西安交通大學、中國科技大學、華東師範大學,還有百度和杭州的丁香園等。

我自己以前是做專家系統的,學過人工智慧的人可能都知道,專家系統是人工智慧的一個應用分支,是知識工程的一個應用實踐。我的早期學術歷程包括:

• 1988年,北京的電子工業出版社《專家系統技術》;
• 1990年,中國科技大學出版社,《專家系統設計》;
• 1991年,到了英國愛丁堡大學人工智慧系讀博士;
• 博士讀完後,在美國出了第一本英文專著,叫《Knowledge Acquisition from Databases》,1995年出版。

網際網路到物聯網時代的核心是物物相連,從原來單純的World Wide Web,到把Web上面的所有可能的資訊都蒐集起來,包括感測器,相關的人、物所提供的一相關資訊資源等。網際網路時代的物物相連正在悄悄地走向人工智慧和機器人的時代,也就是智慧資訊處理,被稱之為人類第四次工業革命。

1956年的達特茅斯會議標誌著“人工智慧”這個概念的形成。在1956年以前,在世界各地,包括美國、英國,大家都做一些嘗試,機器翻譯、智慧語言處理、圖靈機的設計、早期的神經網路的設計。1956年標誌“人工智慧”的誕生,其中的核心問題,是製造更聰明的計算機。隨著人工智慧概念形成以後,涉及到不同的側面的探索,早期以搜尋式推理、符號邏輯為驅動的。

真正讓人工智慧走向社會、走向世界、走向各行各業的應用,還是80年代的專家系統。

我個人的研究背景涉及到專家系統和知識工程。其後大家又認識到光靠專家系統和符號推理,人工智慧應用還是有明顯侷限。

90年代以後,摩爾定律和統計學習推動了人工智慧的廣泛應用,近期的深度學習也挺火熱。深度學習給人工智慧掀起了一個高潮,當然也涉及到機器學習的其他方法。到了當今時代,大資料以及計算的需求揉和到人工智慧系統開發裡了。

我現在的研究主題是知識工程。在國際上,專家系統和知識工程的一個代表性人物,是斯坦福大學的Edward Feigenbaum。Feigenbaum教授1994年拿到了計算機學科的最高獎圖靈獎,在好多的文獻裡面Feigenbaum教授就被稱為專家系統之父,也就是知識工程之父。

Feigenbaum把專家系統和知識工程定義為對應用問題求解所進行的知識的獲取、表達和推理。專家系統這門課包含三項核心技術:

第一、知識獲取,就是怎麼去跟專家打交道,把專家的知識獲取來放到計算機程式裡面去,知識獲取就涉及到自動的、半自動的,還有人工的。

第二、獲取了知識以後,首先要進行形式化,也就是邏輯表示、語義網路表示,還有狀態空間圖表示和產生式系統,這是四種典型的知識表示方法。

第三、知識表示成形式化的描述,進到專家系統後,就要進行問題求解,涉及到知識推理,包含正向推理、反向推理、雙向推理。知識工程指的就是知識的獲取、表示和推理,這是在國外。

在國內,我們中國科學院數學與系統科學研究院的陸汝鈐院士,是國內做專家系統、知識工程的先行者。陸院士在最近《大資料在各領域的應用及發展策略》報告裡面,把專家系統和知識工程分成了四代。這裡暫不贅述,如果有興趣可以自行搜尋學習。陸院士親自領導國內知識工程開發工作。

知識工程裡面有兩個核心難點問題:

第一、知識的獲取。如果專家提供的知識不可靠,或者我們沒有辦法把專家知識獲取後形式化地放到計算機程式裡面去,那麼系統就不可能成為專家系統。

第二、知識再工程。開發一個專家系統的時候,可能要從0開始學,知識的獲取過程、形式化的手段,還有建計算機程式知識庫的過程,再工程指的是知識構建過程的工程話重複使用。

大資料知識工程

下面講大資料知識工程,或者說大知識工程,所要面臨的一些典型的不同。

大資料的一些典型特徵,大家可能聽到的最多的都是五V模型,叫Volume、Variety 、Velocity、Veracity、Value,就是從資料的規模、多樣性、變化尺度、資料質量的可靠性,定義大資料。

我自己還有合肥工業大學團隊也凝練了一套大資料的特徵,稱為HACE定理。HACE定理的文章現在已經被引用1600多次了。HACE定理是四個字母:

H,Heterogeneous,異構;

A, Autonomous,自治;

C, C是Complex,複雜;

E, E是Evolving,演化。

第一個特點叫群智性。就是指依靠User Generated Conent,所以叫UGC。可依靠人人蔘與所提供的海量的、低質的碎片化的知識來進行問題修建,沒有一個完整的結構,或者說沒有一個完整的本體,因此我們要學。

在學的過程中間就遇到了第二個特點,知識庫要具備自完備和增殖能力。要用到知識的關聯、知識的推理,需要推導一些暫時在知識庫裡面還找不到的知識。

大資料環境下,異構、自治、複雜、演化,問題求解就需要對使用者來進行充分地交付,來學習使用者的問題以及使用者的痛點究竟在什麼地方。

所以大資料知識工程專案的基本目標是:

第一、 建立大資料知識工程的技術理論;

第二、 形成由使用者所產生內容的碎片化知識構建;

第三、 形成知識服務平臺的方法體系。

大資料的知識工程或者說大知識是建立在大資料基礎上的層次拔高。大資料知識工程是在問題求解的基礎上,把知識進行凝練、抽取,做進一步的融合。目的是在大資料求解過程中,知識能夠幫助其他問題求解,或幫助其他領域人員實現知識加寬。我們要在大資料環境下,形成大資料知識工程的先發優勢,這符合國家戰略目標。

從這個角度上來講,知識工作的自動化對未來的經濟社會能起到一種顛覆性作用,以前我們都做資料分析,我們現在做知識凝練、知識處理。應用範圍比較多,普適醫療、遠端教育、安全預警、旅遊、商業智慧,我們這15家單位現在都涉及到這幾個方面。

大資料知識工程是國家科技部的專案,目標是要建立國家的知識平臺,來提供精準的高水平的知識服務。我們要面向不同的使用者來做精準服務,所以研究技術專家要面臨不同的應用領域,面臨不同的服務方式。

大資料的實踐

下面介紹以公安大資料為例,大資料知識工程、大資料服務在商業公司裡面的實際體現。

明略公司是一個行業人工智慧公司。我們現在做的三個主要行業,安防、金融、工業軌交, 同時,三個行業裡面我們現在做的規模最大、影響最大的,還是公安資料。公安資料和其它行業應用一樣,底層還是做知識圖譜,開發了一套系統,也積累了很多資料和知識體系,無論哪個行業的基本原理是一致的,都是從很多的基礎資料裡面找關聯,找主題資訊,再去凝練特徵,通過建模型來進一步凝練特徵,最終建成一個人工大腦,或者叫智慧系統。

有了智慧系統,就是實現認知智慧的基礎,最前面有很多單獨的資料來源,後面做關聯,然後凝鍊成特徵,在建模之前大家可以看到,用一個形象化描述知識圖譜,正如火眼金睛可以識別關聯關係。知識圖譜是明略資料做行業人工智慧的一個抓手,從大量的資訊來源抽取所需要的資訊。舉例,公安大資料體系裡面有標籤體系,如,行為人、自然人的一些身份資訊、背景資訊,然後再把這些自然人的軌跡資訊、人跟人之間的關係資訊等蒐集、凝練、融合,就形成了一個公安資料的情報圖譜。

公安資料的情報圖譜我們已經做到什麼程度了?系統現在已經部署到30多個地市級公安局。其中有一個公安系統中就有約16億個實體、40億個連線、140億個事件,這個資料現在是非常大的。在明略資料,運用知識圖譜、認知人工智慧等手段,構建人員、組織、事件、軌跡基礎庫,完善群體監測、事件研判兩大應用,充分利用各項動態資料,提高群體軌跡監測動態預警能力,以群體的軌跡資料結合文字情報線索為基礎,實現人事時空的關聯,進一步提高預警研判的準度、精度。

情報研判基於不同的資訊來源,不同的人物、組織、地名、事件資訊來源,最終形成一個公安行業大腦。其中,我們也要做一些量化模型分析,還涉及到很多的基礎設計。概括起來,明略資料的“公安大腦”用知識圖譜資料庫幫助警察破案可以做到事半功倍。

論文

下面是我的幾篇代表性論文:

綜述性論文

1、從大資料到大知識: HACE + BigKE,吳信東, 何 進, 陸汝鈐, 鄭南寧 ,
http://www.cs.uvm.edu/~xwu/Publication/AAS-CN-HACEandBigKE-16.pdf
其中第4節展望了6個挑戰和6個應用場景。

2、資料探勘的10大演算法(英文)http://www.cs.uvm.edu/~icdm/algorithms/10Algorithms-08.pdf
這篇文章 Google Scholar的引用次數今天是3941。

研究型論文

3、大資料的HACE定理和三層處理模型:http://www.cs.uvm.edu/~xwu/Publication/TKDE-14-BigDataMining.pdf 這篇文章自2014年1月發表,到2015年6月,連續18個月在IEEE(1884年開始)的所有會議和期刊論文中每月下載量全球第一,2015月7月全球第二,2015年8月全球第三,開創了一個IEEE記錄。Google Scholar的2018/08/02引用次數是1613。

4、大資料知識工程:http://www.cs.uvm.edu/~xwu/Publication/BigKE-IS-30-05-15.pdf 這篇論文對大資料時代的知識工程及其核心問題進行了定義,提出了一個BigKE模型,是同鄭南寧院士、陸汝鈐院士等一起做的。
以這篇論文的綱領性設計為驅動,2016年我們成功獲批了一個4千5百萬的科技部重點研發計劃專案(project.bigke.org).

5、負向關聯規則挖掘:http://www.cs.uvm.edu/~xwu/Publication/TOIS-04.pdf
這篇文章Google Scholar的今天引用次數是499。

6、特徵流環境下的線上特徵選擇:http://www.cs.uvm.edu/~xwu/Publication/TPAMI-13.pdf
這篇文章Google Scholar的今天引用次數是116。

加入社群

量子位AI社群19群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態