從專家系統到大資料知識工程,「千人計劃」專家吳信東如何為資料冠以知識
近日,機器之心採訪了明略資料首席科學家、科學院院長吳信東教授,吳教授一直專注於知識工程方面的研究,並從專家系統到大資料時代經歷了技術的變遷與發展。在本文中,我們將著重介紹專家系統及大資料環境下的知識工程,它們的共性是從專家或資料中提取知識,並用於進一步的推理與預測。吳信東教授在 10 月 15 到 16 號的 AIIA 人工智慧者開發大會將會更詳細地介紹大資料知識工程。
吳信東教授是國家「千人計劃」特聘專家、長江學者、IEEE & AAAS Fellow,他早期關注於專家系統,也就是知識工程的應用實踐。而隨著機器學習與大資料的流行,他領導的科技部重點研發專案 BigKE 將「大資料」引入了「大知識」。整體而言,大資料知識工程(BigKE)也就是從多種異構資料來源抽取碎片化的知識,並將這些知識融合為整體以提供進一步的知識服務。
專家系統
專家系統,即從領域專家獲取知識,並將這種知識遷移到計算機系統以自動實現某些專家能力求解的功能。對於基於專家系統的知識工程,其可以定義成為對應用問題求解所進行的知識的獲取、表達和推理。它主要包含三階段,首先知識的獲取就需要與領域專家交流,並獲取專家在該領域解決特定問題的知識。其次需要將獲取的知識表達出來,這一般是形式化的表達,例如用邏輯表示和知識圖譜表示等。最後需要基於這種表示對問題進行求解,也就是進行知識推理。
吳信東教授表示目前其實還有很多解決方案在實踐中會使用專家系統,只不過它會作為大系統的組成部分,其它如計算機視覺、深度學習和知識圖譜等組成部分可能更加引人注意。此外,專家系統完成的任務相對於端到端的方法會更寬廣。例如深度學習方法更擅長識別和分類等任務,它關注非常精細的決策。而專家系統會嘗試解決整個領域需要專業知識的決策,它可能會涉及多種任務。
正如吳教授所說,專家知識在各種系統都充當著非常重要的作用,不論是針對特定領域問題還是大資料。例如對於機器學習來說,很多時候先驗知識都是一種專家知識,而卷積神經網路等新型模型同樣也應用了專家知識,因為我們假設了影象等二維資料只有在區域性才是相互影響的。
但是純粹的專家系統卻有很多侷限性,它無法相容當前的大資料環境。首先大資料具有三大顯著特點,即海量資料、資料質量參差不齊、個性化屬性,這些都是傳統專家系統無法解決的,因此也就有了吳教授負責的國家重點研發計劃重點專項專案——大資料知識工程(BigKE)。
大資料知識工程
在大資料時代,如何利用知識工程的思想和方法獲取、表示、推理和解釋大資料,並將挖掘出的知識形成解決問題的大知識系統,這就是大資料知識工程(BigKE)最希望完成的目標。
相比於傳統專家系統,基於大資料的大知識系統更關注提取各種資料中的碎片化知識,並與領域的專家知識相結合而構建整個系統。大資料知識工程降低了對專家知識的依賴性,並希望從碎片化的資訊中抽取群智知識。吳信東教授表示,從整體而言,BigKE 可以分為三階段,即多源異構資料中的碎片化知識建模、從區域性知識到全域性知識的碎片化知識融合、個性化知識導航。
包含三階段的 BigKE 框架,第一階段通過線上學習對碎片化知識進行建模,第二階段實現非線性知識融合,第三階段按需求提供知識服務。
碎片化知識建模
BigKE 首先會採用合適的模型對各種資料型別進行建模,相當於從非結構化資料中抽取結構化的知識。這一建模過程主要會採用線上學習的模式,即持續不斷地一點點學習不同的知識碎片。此外,從多種資料來源中抽取的碎片化知識對評估資料的可靠性和資料質量有著重要的作用。如上所示,BigKE 會同時考慮資料流與特徵流,而對流資料的處理需要選擇動態模型來刻畫資料特徵,因此動態的知識提取是非常重要的方面。
線上學習繼續向後輸出具有語義資訊的特徵,而資料的可靠性同樣也會在後面得以評估。之所以需要評估,主要是因為我們無法對所有資料進行建模,而且不同資料來源有著良莠不齊的質量。因此我們可以對資料來源進行排序和評價,獲得資料的精確度和可靠性,並在資料篩選時選擇較高質量的資料。因此相比於一般的線上學習,關注特徵流的線上學習不僅關注資料處理順序,同時關注更有效和優質的特徵空間。
吳教授表示對知識建模的線上學習可以是各種優秀的機器學習或深度學習模型。例如我們希望從文字中抽取出主體的屬性,那麼就能使用基於深度學習的命名實體識別抽取知識,而當我們希望從影象中抽取出主要物體,那麼又可以使用卷積神經網路等方法抽取知識。這裡不同型別的資料會有合適的方法進行處理,並抽取出我們想要的知識。
非線性知識融合
在從不同的資料來源抽取必要的知識後,如何融合這些不同方面的知識就顯得非常重要。為了將離散的區域性知識融合為全域性知識,BigKE 採用知識圖譜表示碎片化知識,其中區域性知識可以表示為完整知識圖譜的一個子圖。
吳教授說:「知識圖譜的整體概念比較簡單,它主要包含兩部分。首先第一部分是節點,節點一般涉及到概念,比如人、物體和事件等,其次是連線,它會連線不同的概念。所以從本質上來說,任何能以概念及概念間的連線來表達的問題都能視為知識圖譜。」此外在知識圖譜中,連線會分為顯性連線和隱性連線,顯性連線可以是層次關係或親友關係等,而隱性連線為兩個概念沒有直接關係,但計算相似度等手段可以建立新的隱性關係。在知識圖譜里加上這些非線性屬性以後,能夠將區域性知識與全域性知識更好地聚合在一起,並實現更進一步的知識推理。
BigKE 採用知識圖譜表示和融合區域性知識有非常多的優勢,首先來自各種資料來源的知識有獨特的屬性,它們間的關係是複雜和演化的,因此傳統的線性融合方法無法反映出區域性知識之間的聯絡。而知識圖譜為區域性知識和全域性知識提供了統一的表示形式,它們的概念都能表示成節點,而各種關係都能表示成連線。其次,知識圖譜節點之間的路徑可以視為不同知識片段之間的可能關聯,這為個性化服務的實現提供了可能。
知識推理
BigKE 的目標是根據使用者需求提供服務,也就是根據已搭建的知識圖譜進行知識推理。對於前面搭建的知識圖譜,其節點和邊分別對應於知識單元和知識之間的語義關聯,而提供知識服務可以視為搜尋兩點之間的最佳路徑。此外,吳教授表示知識推理同樣可以實現個性化的推薦,併為個性化的查詢提供精確的導航服務。因此針對個性化查詢,BigKE 會在知識圖譜直接進行推斷,從而預測使用者可能的行為。
吳信東教授將於 10 月 15 到 16 號在蘇州國際博覽中心舉辦的 AIIA 人工智慧者開發大會詳細地介紹大資料知識工程。報名連結: ofollow,noindex" target="_blank">http://www.huodongxing.com/event/3458284296300?utm_source=%E5%8F%91%E7%8E%B0%E6%B4%BB%E5%8A%A8%E9%A1%B5&utm_medium=&utm_campaign=eventspage