肖仰華:知識圖譜落地,不止於“實現”
知識圖譜如何落地業界都在不斷進行摸索,在肖仰華教授看來, 知識圖譜的落地除實現之外,論證與設計、運營與反饋也是不可忽視的。知識圖譜落地是個系統工程,不是單一模型能夠解決的,系統架構、流程、策略都十分重要。
作者 | Just
出品 | AI科技大本營(ID:rgznai100)
“知識將比資料更重要,得知識者得天下”,去年十月,在 CSDN 對肖仰華教授的一篇 約稿 裡,他指出資料 的真正價值蘊含於其深加工的知識中 。
從 Google 於 2012 年提出知識圖譜概念後,知識圖譜技術與大資料和機器學習等技術相結合得到迅速。肖仰華教授認為,在更多實際場合下,知識圖譜作為一種技術體系,指代大資料時代知識工程的一系列代表性技術進展的總和。
人工智慧時代的到來,知識圖譜也成為了實現機器認知智慧的基礎,將知識庫中的知識與問題或者資料加以關聯後的知識圖譜,可以讓機器像人腦那樣進行理解與解釋。
基於知識圖譜技術的潛在能力,業界也加快了知識圖譜的應用落地。從應用的角度來看,知識圖譜的應用趨勢越來越從通用領域走向行業領域。肖仰華教授認為,現在的局面是通用與行業應用百花齊放,各行各業都在討論適合自己的知識圖譜。
知識圖譜如何落地業界都在不斷進行摸索,在肖仰華教授看來, 知識圖譜的落地除實現之外,論證與設計、運營與反饋也是不可忽視的。知識圖譜落地是個系統工程,不是單一模型能夠解決的,系統架構、流程、策略都十分重要。
當然,知識圖譜落地還需要探討更為具體的問題。 比如領域知識圖譜構建時如何界定領域知識邊界?一個合格的領域知識圖譜有什麼評價標準?從目前業界賣資料階段到提取出出知識之間的鴻溝有多大?知識圖譜產業有哪些已然明確的發展方向?知識圖譜近年來從理論上是不是沒有多大進步?
作為 5 月 25 日-5 月 27 日即將在杭州舉辦的 CTA 大會( 官網:https://dwz.cn/iSZ7BQUR )知識圖譜論壇的演講嘉賓,AI科技大本營對肖仰華教授進行了採訪,對上述重要的指向性問題,他一一進行了詳細解答。
(肖仰華,復旦大學電腦科學與技術學院教授,博士生導師,知識工場實驗室負責人。)
以下為採訪內容實錄:
AI科技大本營:現在所稱的知識圖譜實際上是一種大規模語義網路,這裡強調的“大規模”怎麼定義?是否有量化標準?
肖仰華:這裡講的“大規模”並不是從數量上來衡量的,不是說資料量大一點的就叫做知識圖譜,資料量小一點的就叫做語義網路。
我們強調知識圖譜是一種大規模語義網路,是為了讓大家轉變思維,意識到規模上的量變會帶來了效用上的質變。同樣是構建語義網路,知識圖譜從知識獲取到知識應用均與傳統語義網路存在顯著區別。這種區別體現在:(1)高質量模式缺失或被有意捨棄;(2)封閉世界假設不再成立;(3)大規模自動化知識獲取成為前提。
AI科技大本營:關於知識圖譜生命週期,您特意提到如何融合知識圖譜與傳統知識表示來更充分滿足實際應用需求是值得研究的問題之一。反過來看,是否意味著目前還不存在新的比較靠譜的知識表示方法?
肖仰華:準確來說,目前並不存在大一統的一種知識表示方法,可以用來表示所有知識。所以我在之前提到的一個觀點叫做“NoKG”,也就是 Not only KG。這裡是借鑑“NoSQL”的說法。
知識圖譜只是知識表示的一種,單單知識圖譜不足以表達現實世界的豐富語義,不足以解決所有問題。比如很多領域有著豐富的 if-then 規則(比如故障維修、計算機系統配置),這些規則利用知識圖譜表達就很牽強,特別是對於 if A and B then C 這樣的規則。因此,鼓勵知識表示方法“百家齊放”,什麼場景下適合什麼知識表示就用什麼知識表示方法。
AI科技大本營:為了規避業界“為圖譜而圖譜”的現象,您認為知識圖譜應用實踐最重要的是明確要利用領域知識解決怎樣的應用問題,然後根據應用反推知識表示。但知識是網狀的,領域知識之間也存在勾連,那在做某一領域知識圖譜時如何界定知識邊界的範圍?
肖仰華:界定實際應用的知識邊界是非常困難的,這是一種定性判斷,而非定量判斷。我們可以從可行性的角度來進行界定,一般而言一個應用涉及的知識越簡單、應用越簡單就越可能實現。為了確定自己的應用是否符合知識簡單、應用簡單,可以通過以下三類問題來進行判斷:
(1)應用複雜性
Q1:是否用到常識?Q2:是否用到元知識?Q3:是否單一問題模型即可建模(比如分類或者回歸)?Q4:是否涉及長程推理?Q5:用到的知識型別是否多樣?Q6:領域專家的學習週期是否很長?Q7:是否簡單的崗位培訓就能勝任應用需求?Q8:應用是否封閉?
(2)知識複雜度
Q1:知識是否容易發生變化?Q2:是否涉及複雜過程的描述?Q3:是否涉及分支繁複的推理決策?
(3)知識資源積累
Q1:是否存在領域本體?Q2:是否存在敘詞表?Q3:是否存在領域詞典?
AI科技大本營:領域知識圖譜作為語義網路,目前還難以表達複雜因果關聯與複雜決策過程,既然如此,業界現在做領域知識圖譜的壁壘究竟有多高?體現在哪些方面?
肖仰華:壁壘可能包括資料和場景。領域資料是一個企業的護城河,沒有大資料的企業根本玩不轉;領域場景也不像通用場景那麼簡單,需要長期深耕使用者,準確理解使用者的痛點,才能更好的設計出適用於知識圖譜的場景。同時,領域應用的樣本稀疏、場景多樣、知識表示複雜等對於業界的知識圖譜技術均提出了巨大挑戰。
AI科技大本營:一個合格的領域知識圖譜有什麼評價標準?
肖仰華:領域圖譜的評價標準總體而言有三個方面的指標。
(1) 規模 。這只是個相對的概念,一個知識庫到底需要多大的規模才能支撐實際應用,是沒有絕對答案的。需要看實際應用的反饋,也就是知識圖譜上線後的使用者滿意率。比如在利用知識圖譜支撐語義搜尋方面,多少查詢能被準確理解,這個比率是個重要的指標。
(2) 質量 。包括以下幾個維度。一是、準確率。比如是否存在錯誤事實,錯誤事實所佔比例都是質量的直接反映。二是、知識的深度。比如很多知識庫只涵蓋人物這樣的大類,無法細化到作家、音樂家、運動員這些細分類目(fine-grained concepts)。三是、知識的粒度。粒度越細應用越靈活,應用時精讀越高。細化知識表示的粒度是領域知識圖譜的構建過程中的重要任務之一。
(3) 實時 。絕對實時是不現實的,因而實時大都從知識的延時(latency)角度進行刻畫。短延時顯然是我們所期望的。
AI科技大本營:目前來看,知識圖譜在業界的應用似乎更偏向於領域知識圖譜( DKG),通用知識圖譜(GKG)的發展處於何種階段?業界公司做 GKG 是否必要?會不會做成像語音助手 Siri 那樣的雞肋應用?
肖仰華:目前通用知識圖譜的發展已經趨近於成熟,主要以百科類網站作為資料來源進行知識抽取構建而得,技術和應用都基本固定,想有所創新比較難。業界應該把更多的精力放在構建領域知識圖譜上,領域應用的場景多樣、知識的深度更深、粒度更細,更有可能做出不是雞肋的應用。
AI科技大本營:您說“得知識者得天下”,但目前業界還處在賣資料盈利的階段,從賣資料到提取出“精純”的知識之間的鴻溝有多大?通往知識的“路徑”中,哪些屬於已經是非常明確的基礎性方向,哪些還在探索當中?
肖仰華:知識圖譜的產業形態分為三類典型形態:資料與服務、產品與系統、諮詢與解決方案。
(1) 資料與服務。各行業均對知識圖譜有著迫切需求,想建設通用或者領域知識圖譜,並將知識圖譜中的資料對外提供服務。直接的圖譜資料服務能力有限,在一些深度服務需求比較多的場景,在知識圖譜資料基礎上進一步提供認知服務。
目前大平臺類似 IBM Watson、微軟認知服務、百度大腦平臺都在嘗試知識圖譜資料與認知服務。除了通用知識圖譜之外,特定領域或者行業的知識圖譜也對資料與服務有著強烈需求。在圖書情報、出版傳媒、招聘就業、智慧財產權等相關領域,由於缺乏頭部企業,這為第三方平臺的存在提供了較大的發展空間,並且這些領域資料相對公開容易獲取,使得構建獨立的第三方服務平臺成為可能。
(2) 產品與系統。知識圖譜的大規模應用與產業化是需要個類成熟的產品與軟體系統支撐的,比如很多行業圖譜的建設均需要網際網路資料來源的補充,這就需要大規模的分散式爬蟲系統。建好的大規模知識圖譜通常需要圖系統的管理,這就是圖資料庫系統,大量的企業或者團隊在從事相關係統的研發。
目前涉及知識獲取的產品與系統仍然有很大的發展空間。知識獲取總體上仍處在發展中階段,技術尚未定型,為其固化相應的產品形態具有一定的風險,需要予以充分考慮。
(3)諮詢與解決方案。知識圖譜知識工程是個典型的系統工程,很多時候與建築工程十分相似,都需要論證、設計、實施、監理、驗收等各個環節。
知識圖譜落地過程中最為重要的環節不僅是實現,更需要論證與設計。因此也就給專注於知識圖譜諮詢和解決方案設計與實施的企業提供了豐富的機會。
AI科技大本營:Google 從 2012 年提出知識圖譜後,有人認為其在理論上其實沒有特別大的進步,更多是從實踐中去發現吸納了新的技術方法,您同意這種說法嗎?
肖仰華:大資料時代的到來,催生了以知識圖譜為代表的大規模知識表示,同時也為其發展奠定了必要的基礎。今天這個時代談知識工程跟 20 世紀談專家系統有什麼不同?最大的不同點是我們有前所未有的大資料、前所未有的機器學習能力以及前所未有的計算能力。這三個技術的合力作用使我們可以擺脫對專家的依賴,使實現大規模自動化知識獲取成為可能,這也是大資料知識工程的根本。這一種知識獲取,本質上可以稱為自下而上的獲取。
顯然,這種資料驅動的知識獲取方式與人工構建的知識獲取方式完全不同。前者可以實現大規模自動化知識獲取,無須高昂的人力成本。相對於人工構建的知識獲取方式,資料驅動的知識獲取方式是一種典型的自下而上的做法,是相對務實、實用的做法。大資料時代所發展出來的眾包技術使得知識的規模化驗證成為可能。知識獲取的眾多環節均可以受益於眾包技術。比如,訓練知識抽取模型時可以通過眾包獲取標註樣本,從而構建有效的有監督抽取模型。
在知識圖譜技術的引領下,各種各樣的知識表示將在不損失質量的前提下逐步提升規模,從小規模的知識表示變成大規模的知識表示,最終應對大規模開放性給知識工程帶來的巨大挑戰。
AI科技大本營:談談您對知識圖譜和圖結構、深度學習結合的看法。
肖仰華:知識圖譜本質上是一種語義網路,表達了各類實體、概念及其之間的語義關係。也就是說,它本身就具有圖結構的性質。目前主要利用其圖結構化的性質,用在知識圖譜查詢、儲存等方面。
現階段將深度學習技術應用於知識圖譜的方法較為直接,大量的深度學習模型可以有效完成端到端的實體識別、關係抽取和關係補全等任務,進而可以用來構建或豐富知識圖譜。
知識圖譜在深度學習模型中的應用主要有兩種方式。一是將知識圖譜中的語義資訊輸入到深度學習模型中,將離散化知識圖譜表達為連續化的向量,從而使得知識圖譜的先驗知識能夠成為深度學習的輸入;二是利用知識作為優化目標的約束,指導深度學習模型的學習;通常是將知識圖譜中知識表達為優化目標的後驗正則項。前者的研究工作已有不少文獻,併成為當前研究熱點,知識圖譜向量表示作為重要的特徵在問答以及推薦等實際任務中得到有效應用。後者的研究才剛剛起步。
但總體而言,當前的深度學習模型使用先驗知識的手段仍然十分有限,學術界在這一方向的探索上仍然面臨巨大的挑戰。這些挑戰主要體現在兩個方面:(1)如何獲取各類知識的高質量連續化表示;(2)如何在深度學習模型中融合常識知識。
相關連結:
(本文為 AI科技大本營原創文章,轉載請聯絡 10972722531)
CTA核心技術及應用峰會
5月25-27日,由中國IT社群CSDN與數字經濟人才發展中心聯合主辦的第一屆CTA核心技術及應用峰會將在杭州國際博覽中心隆重召開,峰會將圍繞人工智慧領域,邀請技術領航者,與開發者共同探討機器學習和知識圖譜的前沿研究及應用。
更多重磅嘉賓請識別海報二維碼檢視, 目前會議早鳥票發售中(原票價1099元), 點選閱讀原文即刻搶購 。新增小助手微信 15101014297 ,備註“ CTA ”,瞭解票務以及會務詳情。