知識圖譜:知識圖譜賦能企業數字化轉型 | AI 研習社職播間第 3 期
現在的市場環境下,企業正面臨著競爭逐漸加劇、人力成本增加、人員流動率加快等挑戰。而隨著企業經歷了資訊化的成熟階段,沉澱了大量的資料,大型的企業都開始了數字化轉型,它們利用前沿的技術、海量的外部資料以及內部積累的業務資料上下游的關聯客戶,將資料轉化為專家的經驗知識,從而提高工作效率和產品銷量,並增強產品的使用者體驗。而知識圖譜,則在企業的數字化轉型中扮演了重要的作用。
近日,在雷鋒網 AI 研習社第 3 期職播間上,北京知識圖譜科技有限公司 CEO 進行了招聘宣講,並分享瞭如何利用知識圖譜產品賦能企業數字化轉型。公開課回放視訊網址: ofollow,noindex">http://www.mooc.ai/open/course/554?=aitechtalkwugang
吳剛:中科院軟體所碩士,師從軟體所總工戴國忠研究員,主要研究方向為人機互動與智慧資訊處理,曾在湯森路透擔任中國區首席顧問。現任北京知識圖譜科技有限公司 CEO、中文資訊學會語言與知識計算專委會委員、開放知識圖譜聯盟成員。
分享主題: 知識圖譜賦能企業數字化轉型
分享提綱:
1、公司介紹與職位介紹
2、知識圖譜技術概述
3、企業機遇與挑戰
4、知識圖譜賦能企業數字化轉型
5、知識圖譜落地挑戰與趨勢
雷鋒網 AI 研習社將其分享內容整理如下:
我是知識圖譜科技有限公司的 CEO 吳剛,很榮幸能來這裡與大家進行分享。首先做個自我介紹,我畢業於中國科學院的中科院軟體所,學的是人機互動與智慧資訊處理。畢業後在湯森路透工作了幾年,做面向金融、科技行業的諮詢顧問,之後在 2017 年,我們成立了北京知識圖譜科技,面向醫療、軍工、金融等領域提供知識圖譜解決方案。
今天我們分享內容包括:公司介紹&招聘,知識圖譜概述 &企業機遇挑戰,知識圖譜賦能企業數字化轉型,知識圖譜落地挑戰與趨勢四個方面。
公司介紹&招聘
其實我們首席科學家在 2015 年就開始做知識圖譜的相關業務了,在 2017 年成立了北京知識圖譜科技有限公司。公司的研發中心在江蘇省南京市江寧區秣周東路(地鐵三號線旁邊),未來科技城裡面。我們整個公司是技術驅動型的,技術氛圍很濃,經常會組織技術分享會,包括請外面的專家過來作報告、讓員工去參加知名的技術會議等。我們公司現在主要是面向行業構建行業知識圖譜,賦能企業數字化、智慧化轉型。
我們公司在研發方面的實力較強。我們的領軍人物是東南大學漆桂林教授,他是知識圖譜領域頂級專家,在知識圖譜和人工智慧領域非常知名,大家去百度搜尋一下就知道了。我們的研發團隊也是由中國科學院、東南大學碩博士以及阿里巴巴高階技術人才組成的全職專業研發團隊,並且依託東南大學認知智慧研究所強大的技術儲備和人才資源,實現產學研的結合。在技術方面,我們已有 10 餘年知識圖譜領域的技術積累,擁有 10 多項從資料採集清洗、智慧語義處理、知識圖譜建模到運維、智慧決策等全技術鏈 的核心自主智慧財產權。
我們公司的優勢可以從兩方面來說:
一是技術方面:我們公司專注於知識圖譜、智慧問答應用領域多年,通過多年面向企業和政府的大型專案經驗將知識圖譜技術工具化、平臺化,可基於使用者場景快速開發人工智慧應用。
二是經驗方面:我們擁有大量知識圖譜智慧應用的典型客戶案例,服務了多個世界 500 強、國內上市公司、 頂級科研機構以及政府(軍工集團及院所)和多行業企業客戶,有專業豐富的領域服務經驗。
這是我們公司的工作環境,未來科技城這邊的綠化環境很好,還有湖,非常適合散步和跑步,下地鐵走幾分鐘就可以到。同時,未來科技城裡面也有很多科技公司,像華為、中軟都在這邊。
我們公司現在全職員工為 20 人工作,以技術人員為主。大概介紹一下我們公司招聘的職位,因為我們主要做知識圖譜,所以主要招聘開發知識圖譜、人工智慧平臺及行業應用產品的工程師,但我們並不要求必須有知識圖譜經驗的工程師,只要求有工程應用開發經驗的工程師即可。職位主要有:
資深 Java 工程師:我們的知識圖譜平臺主要是 Java 的平臺,因此我們主要招聘資深 Java 工程師,要求 3-5 年工作經驗,本科及以上學歷 。
nlp 工程師 :做知識圖譜也涉及到很多非結構、半結構的資料處理,將處理後的資料融合到知識圖譜中,是我們這個平臺在做的事情,另外我們在醫療、軍工等行業的應用的文件資料也需要這類工程師進行處理。這個職位要求 3-5 年工作經驗,本科及以上學歷 。
測試工程師:這個崗位主要做平臺的測試,要求 1-3 年工作經驗,本科及以上學歷。
我們公司在南京,因此這些職位都是在南京進行招聘。
知識圖譜概述 &企業機遇挑戰
接下來講一下現在企業所面臨的挑戰。其實知識圖譜這兩年才比較熱門,前幾年人工智慧從技術上來說也才相對比較成熟,落地應用場景還是偏感知智慧,如科大訊飛、商湯科技這些做語音識別、人工智慧的公司,利用深度學習對海量資料進行訓練,應用到語音識別、人臉識別這樣一些應用場景中。
而我們現在在做的事情是認知智慧,如果說科大訊飛、商湯這些公司做的是眼睛、耳朵,那我們做的是大腦——大腦就需要處理各種各樣的資料,尤其行業資料很多都是非結構和半結構化資料,涉及到智慧語音處理和知識圖譜本身的一些技術,如知識推理、智慧問答和視覺化等,類似於 IBM Watson 、Palantir 利用這些技術去做智慧情報分析或行業的專家系統一樣,知識圖譜可以應用於醫療癌症智慧診斷、金融智慧投研、法律類案推薦等場景。
知識圖譜是實現強人工智慧必須要攻克的難點,但它本身的技術棧也比較長,暫時無法像影象識別、語音識別那樣被快速推進,只能在一個個小的場景中落地。
知識圖譜技術可能有的人沒怎麼聽說過,但百度、Google 在 2012 年 就開始做這個。比如你在百度上搜「人民的名義」,它知道這是一個電影,而搜尋頁面的右邊,就是通過知識圖譜推薦的關聯知識,比如電影有哪些演員、導演,導演導過什麼電影,編劇是哪些人等等。
所以什麼叫知識圖譜呢?其實現在沒有一個官方的定義,但是從我的角度來看,可以從兩個角度來看:
從資料角度來看:知識圖譜是結構化的語義知識庫,用於以符號形式描述物理世界中的概念及其相互關係,其基本組成單位是「實體—屬性—關係」,構成網狀的知識結構,融合碎片化的資訊,建立領域知識模型,挖掘隱藏的關聯關係和傳遞影響,輔助智慧決策。
例如一個醫療大健康領域,像這個圖一樣,包括食譜、食材、問答、人群、營養素和疾病保健幾個部分,彼此間的關聯包括什麼樣的疾病不能吃什麼營養素的食材等等,這就是一個知識圖譜。
從技術角度來看:它是一套工程技術,包括知識抽取、知識表示、知識儲存、知識推理、知識檢索、知識問答等 一系列技術。
上圖是我對技術棧的一個總結。知識圖譜其實是人工智慧領域的一個分支,可能現在行業內的一些工程師認為他們做的 nlp、資料庫、視覺化就是知識圖譜,但是我認為知識圖譜是一套工程體系,不是做一個 nlp、資料庫、視覺化就能實現,而是要能在場景中解決問題。
因此做一個智慧的語義搜尋,你需要利用自然語音處理去抽取文字資訊,抽取後要去表示、融合知識,並基於這個知識做推理。上面幾個(知識提取、知識表示、知識融合、知識儲存、知識推理)是構建知識圖譜的過程,下面(知識問答、知識檢索、知識推薦、視覺化關聯)是有了資料知識圖譜後的幾種比較典型的運用。
所以知識圖譜是一種交叉的技術體系,與深度學習、自然語言處理都有交叉,包括問答在內的知識圖譜在做語義理解時,都要用到深度學習的技術,因此我們做的這個平臺也是基於很多技術的,比較具有挑戰性。這也對我們工程師提出了更高的要求,不過這樣工程師也能得到更快速的成長,因為接觸到的東西不再僅是深度學習的演算法,知識圖譜跟行業的結合是非常緊密的,工程師也會接觸到一些行業知識。
這是知識圖譜大概的架構:
資料層:指內外部的各種結構化、半結構化、非結構化資料,包括 ERP、CPM、產品說明書、書籍指南、FAQ、EXCEL、專家錄入資料以及採集的資料等。
平臺層:基於資料層去做資料智慧採集的清洗、智慧語義的提取、行業知識圖譜動態模型的構建以及知識推理。
知識層:基於資料層和平臺層,我們就能構建企業級的知識圖譜、使用者知識圖譜以及知識規則引擎。
應用層:使用知識圖譜,可以去做視覺化關聯分析、智慧知識問答、智慧知識推薦、智慧語義檢索等方面的應用。
使用者:我們的知識圖譜面向的使用者,主要是知識密集型的行業,例如金融、法律、醫療、企業等。
構建一次性圖譜可能不是那麼複雜,但是怎樣讓知識圖譜持續地迭代更新,並讓專家參與其中來做運維,這是比較難的問題。而右邊的這個知識圖譜運維管理平臺,則能讓我們低成本地去運維這個圖譜,這是我們的產品現在在做的事情,我們的工程師在做整套的演算法、管理運維平臺並將應用層結合到使用者場景中,這些都需要進行很多開發的工作。
我們講一下這兩年企業開始使用知識圖譜的原因:
一是(金融、醫療等領域)市場監管的加強,如果沒有這個驅動因素,企業可能沒有那麼大的動力去做這方面的技術創新;
二是人力成本增加、 人員流動率大。隨著競爭加劇,知識密集型行業的人力成本逐漸提高。同時,人員流動率的增大也會導致企業流失掉員工的經驗,培訓成本也隨之增大,所以我們的客戶也希望用知識圖譜技術去沉澱經驗,培訓和賦能員工。
三是業務向長尾發展,專家資源有限。一線城市、大醫院的醫療業務基本達到飽和狀態,我們的知識圖譜可以推動分級診療這些機制在這些城市的進展;而隨著市場的增大,專家資源就變得相對有限,這就需要我們這樣的技術幫助企業去滿足並持續擴充套件市場。
四是整個市場競爭加劇,業務變化和知識更新加快。像金融這些行業需要最新技術來進行創新,減少成本,提高效率。當然業務本身的變化也在加快,如果不用更好的技術去響應業務的變化,這種業務就很難生存下去了。
當然對企業來說,之前也有傳統 BI、知識庫,那為什麼還要用知識圖譜?知識圖譜與它們有什麼區別?
傳統 BI 可以進行資料統計或報表,更多是處理知識結構化的資料,而知識圖譜則更多地應用了 AI 技術,除了結構化的資料,它還能處理非結構化或者半結構化的資料。知識庫更多地是把資訊彙集在一起提供查詢,但資訊中那些經驗性知識沒有被提取出來,或者還需要耗費較大的人力去查詢資訊,這也是我們知識圖譜面臨的挑戰——怎樣提高效率,更快地找到我們想要的資訊。
不僅如此,知識圖譜是針對應用場景,去幫助客戶解決問題的。現在客戶也有這方面的要求,比如連線起他們生態中的使用者,而連線過程需要整個行業的知識賦能,然後通過問答去觸達這些使用者。由於現在移動網際網路的發展也為使用者連線、場景落地應用提供了很好的條件,這也是我覺得企業有動力去使用這種方法來提高效率、積澱經驗、增強使用者體驗,以及通過企業轉型連線生態,與使用者互動起來的重要原因。
當然,除了需要企業有較強的使用意願,知識圖譜也需要技術層面的支撐。這也是為什麼此前的專家系統都沒有做起來的重要原因——因為條件還不具備。這些專家系統往往都是人工在做相關的工作,成本很高,難以落地應用場景。而現在我們的知識圖譜能做起來,主要有 4 個方面的原因:
第一,線上海量資料。現在海量資料線上可公開獲取,而企業內部資訊化階段也有大量資料沉澱。
第二,資料採集種類增加。隨著移動網際網路、物聯網、可穿戴裝置等技術的發展,資料採集的種類及採集途徑大大增加。比如要做一個面向病人的護理產品,不採集海量的資訊,就很難推動。
第三,對海量資料進行計算和儲存的成本大大降低。以前成本很高,難以持續投入,而現在成本的降低,能讓我們快速啟動應用。
第四,知識圖譜本身的知識建模、處理技術如 nlp、深度學習、動態本體知識表示、圖資料庫、知識推理、智慧對話、眾包等技術的發展。
除了業務和技術方面,那做知識圖譜還存在哪些挑戰呢?
第一是資料來源。很多資料都是半結構化、非結構化的,如專業書籍和專利、產品說明書、FAQ、報告、新聞等,這些資料的整體質量不高。
第二是資料融合。輸入資料量越來越大是個好事,但是帶來的負面影響就是需要對不同資料來源進行融合。而怎樣將從多源異構資料中抽取的資料和業務模型進行關聯融合,則是一個較大的難點。
第三是業務建模。垂直行業專業化程度很高,知識體系複雜龐大,且知識具有模糊性。就比如幫病人診病,每個醫生的知識和診斷方式都不一樣。此外,業務具有動態變化性,經驗規則複雜,如何建立可靈活擴充套件的模型比較關鍵。
第四是使用者體驗,因為垂直行業產品面臨的是對技術不熟練的個人、銷售代表、業務繁忙的專家等,他們需要簡單易用,使用者體驗智慧化的產品。
知識圖譜賦能企業數字化轉型
接下來我們就講一下知識圖譜怎樣賦能企業數字化轉型。針對剛剛提到的 4 個挑戰,我們有以下需要做的事情:
第一,可以採用智慧爬蟲、自然語言處理、眾包、機器學習和行業詞庫等方式去處理資料來源;
第二,利用 ETL、知識融合和知識儲存去進行資料融合和儲存;
第三,採用動態知識模型、實體知識圖譜構建、知識推理引擎等方式去進行業務建模;
第四,使用者體驗方面,採用智慧問答、語義檢索、智慧推薦和視覺化分析這四種方式去觸及使用者。
企業智慧問答應用場景主要有以下 4 種:
智慧客服:現在一般企業還是使用 chatbot 作為智慧客服,知識圖譜可以賦能客服知識培訓,幫助 chatbot 更加智慧化。
智慧呼叫:有的企業會使用機器人進行電話營銷(如房產、保險行業等)、催債(如金融行業等),知識圖譜能使幫助機器人解決這些場景中遇到的問題。
智慧專家:這也是知識圖譜的一個典型場景的運用,知識圖譜能應用到醫療、法律、金融等專業領域知識問答。
業務決策:整合企業內外部資料構建的企業知識圖譜,可使使用者通過問答、搜尋方式更快獲取知識資訊,知識圖譜讓這些問答、搜尋更加快速、智慧,類似於企業智慧助手。
這是我們知識圖譜業務的一個架構,知識圖譜本身可以跟問答分隔開來,我們可以構建企業圖譜或者行業圖譜,直接讓企業通過搜尋問答方式去使用,當然也可以用在第三方如智慧客服、智慧助手上,讓它們去回答現在難以回答和理解的問題。
這是一個更細的架構,更多面向複雜知識問答的場景。簡答的知識問答比如問天氣、訂機票則不太適合用這個知識圖譜。
舉個例子,構建產品說明書的知識圖譜,也有不少難點,每個產品說明書表格不太一樣,描述也不一樣,例如「加熱不停」跟「加熱無法停止」二者的描述就有差異,需要進行知識的處理。
比如構建一個家電維修的圖譜提供給使用者,當他們說到某個故障的時候,知識圖譜需要告訴他們該怎樣去維修,以及什麼原因。
這是一個簡單的例子,大家可以在圖上看到各種故障,故障有各種原因,在問答的時候我們可以通過這個圖譜進行圖上的查詢及互動。
當然還有很多客戶他們的應用場景,需要匯入各種業務相關的 FAQ、知識文件、語料等,怎樣構建一個更加智慧化的圖譜去進行問答呢?
基於此,我們打造了這樣一個平臺,做全流程的知識圖譜。
我們會根據使用者的反饋去做運維:通過資料採集以及系統自動報警,包括自動偵測以及讓專家去抽樣檢查,接著使用我們這個平臺做問答運維,以逐步優化知識圖譜的質量。
我對智慧問答技術進行了比較:
FAQ:針對常見簡單問題進行問答,適用於閒聊和客戶場景。
深度學習:輔助 FAQ 深度語義解析、問答泛化、多輪對話,需要大量語料,不可解釋。
而知識圖譜則有以下幾個方面的優勢:
1. 帶語義的結構化知識,可擴充套件衍生應用;
2. 適用於複雜專業知識問答、精準知識推薦、知識點關聯;
3. 可與 FAQ 和深度學習結合,使 chatbot 更智慧;
4. 可基於少量語料冷啟動,無需大量語料和配置相同問法;
5. 具有可解釋性。
知識圖譜落地挑戰與趨勢
我們的知識圖譜業務主要是這麼一個流程:
第一步,梳理業務需求:根據業務戰略梳理業務需求及業務優先順序和資料來源。
第二步,技術評估:根據業務需求和資料來源進行技術可行性評估;根據場景確定是否需要智慧問答?是否必須要多輪對話?(不是每個場景都需要多輪對話,多輪對話的實現也有較大難度);對技術方案、資料質量、需要參與的人員以及技術要求進行評估;對業務需求的工作量和難易程度進行評估。
第三步,方案確定:從工作量和效益產出綜合評估進行優先順序排列;分期實施、快速迭代。
第四步,知識圖譜構建:包括資料清洗、本體知識模型構建、資料整合匯入、知識圖譜建模等環節。我們這個平臺將整套技術融合在一起,形成全週期性的技術平臺,讓使用者不需要熟練掌握技術就能使用這個平臺。
第五步,智慧問答應用開發:從小做起;閉環反饋,逐步實現自學習。
第六步,運維:實現本體、知識圖譜半自動運維,根據資料和使用者反饋持續迭代優化。
知識圖譜的構建流程大概是這樣:通過對半結構化、非結構化資料進行自動提取,構建結構化語義模型,形成一個個小的知識圖譜,再進行知識融合,這個過程中,人工也會參與進來,包括專家會錄入資料,做知識的校正,形成一個業務層級的知識圖譜,再通過智慧應用反饋回來,逐步迭代,最終形成全量業務知識圖譜。
做知識圖譜應用落地還面臨著一些挑戰:
一是資料層面。現在知識圖譜行業面臨部門資料壁壘高,高質量知識獲取困難,結構化資料少,這意味著非結構化資料比較多,知識處理就會變難。另外 nlp 現在還沒有到達到非常高的質量,需要不少人工的標註。
二是平臺工具層面。知識圖譜的技術棧比較長,圖譜構建和運維成本高,可複製性不強。
三是專業知識層面。知識圖譜的知識專業性強,和行業結合十分緊密,因而需要與行業專家技術團隊合作,來建立知識模型,在這個過程中,雙方的磨合也是一個挑戰。
四是閉環系統層面。我們必須將知識圖譜做成一個半自動化學習、人機互動,可持續低成本迭代優化的平臺,才能讓使用者實現低成本的運營。
最後介紹一下知識圖譜的趨勢:
第一,知識圖譜與深度學習、語音識別、影象識別等技術深度結合。比如通過深度學習去識別一個片子,如果有知識圖譜作為背景支撐,能實現效果更佳的識別,還能增強可解釋性。
第二,其也內外部資料打通,企業從數字化到智慧化的轉型,企業知識圖譜應用場景模式交叉融合,來逐步沉澱高質量行業知識圖譜。
第三,全生命週期知識圖譜開放平臺化,構建與運維成本大大降低人機結合,閉環反饋迭代,整合領域知識模型,自學習。
分享結束後,嘉賓還對同學們提出的問題進行了回答,大家可以移步社群( http://www.gair.link/page/blogDetail/8626 )進行詳細瞭解。
以上就是本期嘉賓的全部分享內容。更多公開課視訊請到雷鋒網 (公眾號:雷鋒網) AI 研習社社群( https://club.leiphone.com/ )觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。
問答部分
1. 是否和諮詢行業有 overlap?
我認為是有 overlap 的,我們做的一些知識圖譜會替代諮詢行業的某些工作。實際上,諮詢行業本身也意識到了這個問題,像麥肯錫這樣的公司也會使用知識圖譜自動化、智慧化的一些產品。此外,我們遇到的一些客戶如 IBM、微軟這些技術型的公司也在逐步利用知識圖譜技術去做一些職能化的運用,給客戶一套解決方案。當然,我們現在在做的知識圖譜本質上相當於專家系統,能幫助諮詢行業去沉澱諮詢經驗。
2. 知識圖譜和客戶畫像的關係?
因為知識圖譜本身的定義也不是很清晰,我們有時候也可將使用者視為客戶畫像,知識圖譜會比傳統畫像更加立體。傳統的畫像相對比較平面化,包括使用者的基本屬性,年齡,購買類別等等,但是知識圖譜能做到非常深層的關聯,比如可以對企業的上下層關係,挖掘出一個很長的鏈條;對個人,則會涉及到他是哪個公司的高管,參與了其他哪些公司,從哪個學校畢業的以及發表了什麼專利論文(跟誰一起發表的),相比較而言,知識圖譜所呈現出來的客戶畫像會更加全面,更注重深層關係的挖掘和關聯,而不僅僅是個人屬性。
3. 知識圖譜目前和區塊鏈這類分散式技術有結合嗎?
就我來看,二者目前沒什麼結合。區塊鏈的技術我不是太熟悉,但目前結合場景比較少。而區塊鏈本身落地場景的探索現在也還不是很清晰,不過知識圖譜現在的落地場景比較明確,技術實現也比較難,很難進行復制。
雷鋒網原創文章,未經授權禁止轉載。詳情見 轉載須知 。
