達觀資料:化繁為簡 做最專業的文字智慧處理專家
在日常辦公中,普通的白領每天有超過三分之一的時間用在處理對文字的讀和寫上。如何將文字工作由繁化簡?如何在龐大的文字流中用更低成本的人力去完成更高效的工作?達觀資料——一家致力於大資料探勘,持續深耕文字智慧處理的人工智慧公司或許可以給你答案。
走進達觀資料公司,可以看到牆上高高掛著幾幅人類文字史上重大事件的照片,一低頭,甲骨文龜甲、印有古字的木簡卷軸、古樸別緻的象形文字擺件、密碼機……無一不在展現著至妙極精的文字之美。在理工男雲集的浦東軟體園,如此有“情懷”的公司佈置恐怖多見,這一切與一個人密不可分,他就是達觀資料的創始人兼CEO陳運文。
凱撒密碼
從百度核心技術工程師到盛大文學首席資料官再到騰zai訊文學高階總監,陳運文自從復旦博士畢業後,就是始終如一地從事著和文字資料相關的工作。對他來說,這是一件很有意義的事情,“我覺得讓計算機能夠像人一樣的斷文解字,進行文字資料處理,也是一件蠻好玩的事情。”陳運文笑著說道。文字自動化處理是一件非常有價值的事情,但是他看到在中國大量的企業裡面,直到今天為止都沒有很好。2015年的時候,陳運文毅然放棄了大公司的優厚待遇,堅定的選擇了創業這條路,和希望能夠用尖端的技術,能使企業的工作效率能夠大幅度提高,把繁瑣的一些文字相關的工作實現自動化。
專注將一件事做到極致
在人工智慧三大應用領域中,影象識別和語音識別均屬於“感知技術”,而屬於“認知技術”的文字理解才是AI的最關鍵點所在。能夠理解文字意思的NLP是需要理解複雜語義、並進行高精準度處理的認知技術,曾被比爾蓋茨稱為“人工智慧皇冠上的明珠”。
正是思考和獲得知識的能力成就了今天的人類,這種能力需要通過語言來找到思考的物件和方法,並外化為我們看、聽、說和行動的能力。讓機器讀懂人的意思,這是人工智慧得以應用最關鍵的一環,也是最難的一點。達觀資料把這項技術很好地應用到了文書處理上去,“做文書處理很多年,我們知道怎樣把好的技術和產業需求結合在一起,變成可以落地的應用系統。”陳運文說道。
去年,達觀資料宣佈成功完成1.6億元B輪融資,由寬頻旗下基金晨山資本領投,元禾重元、聯想之星、鐘鼎資本及老股東等跟投,華興資本擔任本輪融資的獨家財務顧問。目前,達觀資料累計融資額超2億元,重新整理了中國自然語言理解領域的融資記錄,成為語義識別領域融資額最高的企業之一。作為一個2015年成立的初創企業,達觀資料為何受多家投資機構的青睞?
陳運文的答案是——只因達觀專注地把文字挖掘這一件事做到極致,也使達觀形成了自己的核心競爭力。
陳運文介紹道,達觀資料的核心競爭力主要體現在三個方面。其一,達觀的書面文字的自動化處理,其技術是中國最強的。文書處理看上去不難,但深入進去做其實特別難,因為文字的意思是濃縮的,讓計算機去理解符號背後表達的含義,需要做非常多的技術攻關。其二,達觀把文字閱讀理解的技術和產業應用結合到一起去,產品化程度非常高。一個底層的技術要發展到客戶的真正想要用的一個系統,中間的跨越很大,各個行業所適用的風格也各有千秋。但是達觀讓計算機總結出一個每個行業的語言模型,不斷打磨每個行業裡的模型,使其能夠適配這個行業的這個應用,推動它在這個行業的落地。其三,則是積極進行新技術產學研發,聯合復旦大學、中國計算機學會等開展合作。
“解放”雙手 大批白領面臨失業?
和人相比,機器有兩大優勢:一是機器閱讀文字的速度比人要快得多,測算過現在一臺計算機的閱讀速度是人的500倍;二是有很多的工作是特別重複性的,這些工作讓人來做非常的辛苦,費時費力。那麼可以讓計算機去承擔一些繁瑣、機械的文書處理,讓人去做那些更有創造性的工作。
NLP (Natural Language Processing) ,自然語言處理可以讓計算機模擬白領的大腦運轉,實現閱讀和理解面對大量的文件資料。
我們會不會被人工智慧所毀滅或者取代?隨著人工智慧時代的到來,這是無數人們心中的問題,同時也是霍金留下來的預言之一。
用達觀資料的文件智慧化處理器去代替人完成這些審閱處理工作,那麼未來這些白領是否會面臨失業的風險?陳運文給出了自己的答案。
“我覺得我們其實只是在這些重複性的、非常枯燥的這些作業流程上為白領減輕壓力並不是完全去替代人。”陳運文指出,人類特別擅長做的,應該是創造和聯想。隨著科學技術的不斷進步,會有新的技術能夠讓整個企業甚至整個產業效率提升,這樣人才能投身到更具創造性的工作中去,為社會文明的進步做出更大的貢獻。
做傳統行業賦能者 提供個性化定製方案
“很多大型企業,他們對文字資料的處理還停留在人工整理階段,並沒有意識到很多工作是可以完全自動化的。”陳運文表示。在此情景下,達觀資料這家公司致力於為客戶提供解決實際問題的系統,提升工作效率。
目前,達觀資料的文件處理系統已經發展了大量客戶,其中涵蓋金融、政企、傳媒、軍工等多個領域。其中也不乏很多世界五百強的大型企業,如華為、海爾等。雖然行業不同、定製化需求各不相同,都有一個共同點——都會接觸並需處理大量文件資料,這也需要耗損很大的人力。
同時,達觀資料也致力於提供定製化方案。根據不同使用者的喜好,挖掘資料形成使用者畫像,為客戶提供“千人千面”的定製內容,幫助各行業客戶有效提升點選率和轉化率,
陳運文帶隊在國際演算法競賽KDD CUP中榮獲世界冠軍
據統計,系統上線後,達觀資料客戶的經營業績普遍都能提升30%;通過個性化推薦引擎的服務,達觀資料的客戶平臺人均播放次數等關鍵指標提升了近4倍。不僅如此,達觀在文字挖掘、搜尋引擎、個性化推薦系統方面已擁有20餘項國家發明專利。
立足上海 用人工智慧推動產業轉型發展
上海作為高度城市化的創新之城,也應是人工智慧應用最佳的切入城市。陳運文稱讚了上海的人工智慧產業環境,他多次提到了“務實”這兩個字。“只有真正精益求精,才能真正把產業做大做強。”
正是秉持著這種精益求精的態度和紮實穩健的作風,達觀資料在近年來舉辦的各類演算法競賽中也屢獲殊榮。值得一提的是,去年,達觀資料在最高人民法院的“法研杯”司法文書自動處理挑戰賽中從1000多名參賽選手中脫穎而出,榮獲刑期預測單項季軍的好成績。讓計算機去閱讀這些案件的案情描述,閱讀完了以後,計算機就像一個法官的助理一樣,可以告訴你,案件匹配哪些條款,案件歷史上面類似的案件是怎麼樣的一個判罰結果。
去年,達觀資料與上海檢察院等司法單位的合作也已開始。陳運文笑侃道:“我有個律師朋友,每次開庭都是帶著24寸拉桿箱去的,以後相信就不用了。”他相信,靠人力去歸檔整理的浩蕩卷宗的時代很快就會被替代。
除此之外,在上海市全力推行的“一網通辦”中,在處理大量行政審批文字、縮短行政審批時間方面,達觀資料已經展開與政府機構廣泛的戰略合作,貢獻了自己的科技力量。達觀陳運文表示,在未來3-5年內,達觀資料的目標是讓計算機的閱讀能力超過人類水平。