“法研杯”人工智慧挑戰賽拿下三大獎項,漢王科技在下一盤NLP的棋
作為人工智慧的一大關鍵,NLP(自然語言處理)技術正越來越多進入實際應用場景。尤其在法律、金融、教育等文字密集的領域,利用NLP技術處理和挖掘文字的需求越來越明顯。
今年5月,在最高人民法院資訊中心的指導下,中國司法大資料研究院等共同舉辦了“中國法研杯”司法人工智慧挑戰賽。以刑事案件定罪量刑為背景,比賽設定了罪名預測、法律條款推薦、刑期預測三項任務,也迎來了微軟、阿里巴巴等在內的600餘支隊伍參賽。
其中,漢王科技也派出了以旗下漢王數字首席資料科學家聶昱為首的團隊參賽, 基於NLP和深度學習技術,漢王從國內外600餘支隊伍中脫穎而出,在罪名預測、法律條款推薦和總分專案中斬獲三座獎盃。
此次“法研杯”上的佳績,也使得在NLP領域一向深藏不露的漢王科技,在司法應用上闖入了主流視野,躋身國內領先行列。
始於OCR,深入NLP自然語言處理
說起漢王科技,很多人的第一反應大概會是OCR領域的大佬。
自從80s,脫胎於中科院自動化所文字識別實驗室,漢王科技很早就開始進行離線手寫漢字識別系統的研究,並在1995年研發出第一支電磁筆,1998年作為微軟的中國技術供應商、向微軟進行手寫識別技術的授權。到2001年,漢王科技手寫識別技術已獲得國家科技進步一等獎,2006年,OCR技術獲得國家科技進步二等獎……
作為業界最早致力於OCR識別技術研發和應用的公司之一,漢王科技其中一項重要應用就是文件電子化。 2013年,漢王科技將文件電子化的觸角延伸至圖書館、檔案館,銀行、醫院、法院等多個國家級專案。
在OCR技術領域,漢王科技一直是積極探索的先行者。
但在這些具體專案的實施中,漢王科技也開始逐漸意識到,文件電子化的“江山”雖已打下,但這只是完成了知識、資訊應用的一部分,形成的電子文字是非結構化資料。
也就是說,只有OCR是不夠的。
OCR技術是光學字元識別的縮寫,是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為影象資訊,再利用文字識別技術將影象資訊轉化為可以使用的計算機輸入技術。
但僅僅將紙質文件變成數字化文字,這樣的電子文件沒有對文字進行挖掘、知識之間缺乏關聯,被電腦檢索也只是對比相同字元蒐集資訊。 要將海量的電子文件智慧化,就必須將文字資訊形成結構化資料,只有形成結構化資料,資訊和知識之間形成關聯,才能為大資料應用服務。
作為漢王數字首席資料科學家,聶昱也認為,“靜態的文字是沒有生命的”,掃描出來了,但不能理解其中的意思,依舊無法進行智慧化的應用。
而要將文件的非結構化資料進行結構化處理,轉化為技術術語,就要用到NLP自然語言處理技術,這也是未來電腦科學領域與人工智慧領域中的一個重要方向。
趕上首班車,漢王科技搶先佈局NLP領域
NLP研究人與計算機互動的語言問題。從語音識別,到語義理解,從而真正做到可以互動。業界普遍認為,NLP是人工智慧中最難的部分,也是決定AI是否智慧的關鍵因素。
2015年,得益於深度學習演算法的快速進展,大規模社交文字資料以及語料資料的不斷積累,NLP技術有了飛躍式的發展。在這一年,各大廠商致力於解決語音識別、語義理解、智慧互動、搜尋優化等領域更復雜、困難的問題,持續不斷地對原有產品的演算法、模型進行優化與革新。
漢王科技也在2016年,順勢開始了自己在NLP技術方面的佈局。
2016年,漢王科技與武漢大學的自然語言處理團隊聯合進行文件大資料化研發工作,力圖突破NLP技術,建立起自己的文件大資料庫體系,開發各種新的應用,主攻包括文字分類、聚類、結構化資料抽取、知識抽取、知識圖譜、機器閱讀等在內的NLP技術。
(漢王科技的NLP技術積累)
具體而言, 文字分類, 可以推斷出給定的文字(句子、文件等)的標籤,如按照“體育”、“音樂”等標籤進行劃分; 文字聚類, 是指自動發現一些相似的文章,並聚合。聶昱介紹道,文字分類和聚類兩項技術較為初級,目前已經很成熟。
結構化資料抽取,則是指計算機自動解析文字,並識別其中的關鍵要素。在金融、司法、教育等文字密集的行業,抽取關鍵資訊就很有必要。如從上市公司的財報中,抽取財務資料、股東變更情況等給股民或投資機構,以便其直觀閱讀、分析等。
知識圖譜,是從文字中獲取知識,將其組織成知識圖譜。相對各種機器學習演算法在預測強、描述能力弱的特點,知識圖譜的描述能力上佔優勢,可用於精準查詢、資訊聚合、分析推理。
機器閱讀,即教會機器學會閱讀理解文字資料。目前,漢王已將機器閱讀應用到金融文字、檔案、合同等方面,不僅可以完成基於閱讀內容的問答,還可以把內容中的知識與資訊做提煉與抽取,用於進一步的分析和挖掘。
推進NLP行業應用,漢王科技下了一盤人工智慧大棋
不僅有技術,漢王科技高階副總裁李志峰表示,漢王在大資料方向的NLP技術積累,還通過各個子公司,應用到醫療、法院、銀行及圖書館等領域。
2016年,漢王科技收購了在醫療和法院的文件資訊化方面頗具競爭力的影研科技,佈局醫療和法院文件大資料市場。
作為從事行業檔案資訊化與流程服務的公司,影研科技為司法、醫療、社保、不動產等領域內的千餘家公司,提供了全業務鏈條的文件管理服務。
在對北京法院系統的服務上,影研科技採用基於模式識別和深度學習的OCR技術,對影印件、各種證照材料等複雜版面內容進行高準確率識別;依靠NLP技術,對卷宗內關鍵要素內容進行精準提取;依賴大資料技術,實現海量資料的高效檢索。
在OCR、NLP和大資料技術的基礎上,影研科技形成了訴訟檔案隨案同步生成、訴訟檔案智慧流轉、集約歸檔、庫房儲存四大服務環節,實現了對北京三級法院的全覆蓋。
而在此前古籍、文獻識別的基礎上,結合近年來在知識圖譜方面深入拓展的技術優勢,漢王也開始對文獻資料進行智慧管理。
在對文史出版社叢書文獻進行知識加工過程中,漢王通過從文獻中碎片化抽取、清洗、歸集、融合得到基礎資料,深度加工挖掘得到人物、地點、機構、事件類的知識條目,再基於知識條目構建人物庫、地點庫、機構庫、事件庫等知識資源庫,並通過關係定義實現跨類別的知識關聯,提供了超越圖書內容資訊的深度知識服務。
(漢王科技知識圖譜檢索示例)
從2016年開始NLP的技術積累,到各子公司的行業應用,漢王科技在NLP領域,形成了從技術研發,到法院、醫院、圖書館、檔案館、銀行等多行業應用的閉環,各子公司也在技術和場景應用的協同中,形成了良好的聯動效應。
對於漢王科技在NLP上的佈局,李志峰也表示,近幾年來,漢王科技在NLP投入很大,目前NLP方興未艾,漢王科技的佈局也是“小荷才露尖尖角”。 未來佈局的優勢,隨著NLP技術和市場的開啟,還會不斷顯現。
聶昱也認為,人工智慧目前正處於從感知智慧向認知智慧過渡階段。現在NLP領域的技術難點仍然很多,但對自然語言的深層次認知的追求也許會激勵並引發演算法技術的突破性進步。
據2018全球人工智慧技術成熟度Gartner曲線,NLP、深度學習、機器學習等目前正處於頂峰期,並預計在未來5-10年內繼續保持熱度。
“樂觀地期待,未來NLP會出現很大的技術進展,甚至出現突破深度學習框架的進展。語言比影象更復雜,語言處理好了,人工智慧時代可能就真的到來了。”聶昱說道。
可以想象,隨著NLP的技術發展,及場景的不斷深入,文字應用上將產生新的變革:未來,法院法律文件大資料平臺將可以為法律工作者提供海量的同類案例參考;而在文獻資料上,可以通過知識圖譜等提供超越檔案內容資訊的深度知識服務……在文件電子化上,漢王將帶領人們先行觸控到人工智慧的曙光。
版權宣告
凡來源為億歐網的內容,其版權均屬北京億歐網盟科技有限公司所有。文章內容系作者個人觀點,不代表億歐對觀點贊同或支援。