1. 程式人生 > >幫AI擺脫“智障”之名,NLP這條路還有多遠?

幫AI擺脫“智障”之名,NLP這條路還有多遠?

640?wx_fmt=png

CSDN 出品的《2018-2019 中國人工智慧產業路線圖》V2.0 版即將重磅面世!

 

V1.0 版釋出以來,我們有幸得到了諸多讀者朋友及行業專家的鼎力支援,在此表示由衷感謝。此次 V2.0 版路線圖將進行新一輪大升級,內容包括 3 大 AI 前沿產業趨勢分析,10 位 AI 特邀專家的深度技術分析,15 家一線網際網路企業的 AI 實力大巡展,以及 20 個 AI 優秀應用案例,力求為讀者呈現更全面的中國人工智慧產業發展概況和趨勢判斷。

 

V2.0 版將於 11 月 8 日舉辦的 2018 AI 開發者大會上正式釋出,在此之前,我們將不間斷公佈精要內容,以饗讀者。此為 V2.0 版中深度技術分析系列稿件第 7 篇,作者為 CSDN 特邀 AI 專家——王文廣 達觀資料副總裁

。(回顧:第 123456篇)

 

 

什麼是 NLP

 

自然語言處理(NLP)是人工智慧(AI)的一個分支,其目標是讓計算機能夠像人類一樣理解、處理和生成自然語言。自然語言,又稱人類語言,一般以文字或文字的形式存在於計算機中,從而在某些地方,也被通俗的稱為文字智慧處理。與自然語言相對的是形式語言(比如 Python 等程式語言),計算機可以精確地處理。自然語言往往因為在使用中省略背景,模糊而不精確、多義、引申、晦澀,甚至由於各種原因而故意使用曲折的表達,而使計算機處理自然語言時困難重重,成為人工智慧發展中最大的難點之一。

 

NLP 技術誕生於1950年代,其分支也枝繁葉茂。有基於語法和規則的方法,也有基於統計學習的方法,從 21世紀初以來蓬勃發展的深度學習、深度強化學習和遷移學習的方法在 NLP 領域也被廣泛地使用。微觀層面,在學術界一般將 NLP 劃分為四個層級:即詞法(Lexicon)、句法(Syntax)、語義(Semantics)和語用(Pragmatics)。面向普通大眾,也通常使用偏向應用層面的直接的劃分方法,即字詞級、  句段級和篇章級。

 

NLP 技術在巨集觀層面通常又劃分為劃分為自然語言理解(NLU)和自然語言生成(NLG)兩部分。通俗的講,自然語言理解就是我們常說的“閱讀”,即讓計算機讀懂語言文字的技術。而自然語言生成則是“寫作”,即讓計算機能夠像人類一樣寫句子和文章的技術。除此之外,光學字元識別(OCR)和語音技術(包括識別與合成),也會在某些場景下被歸為自然語言處理的一部分,但本文不涉及這兩塊內容。

 

NLP 是實現認知智慧的關鍵

 

人工智慧(AI)通常被分為三大塊:計算智慧,感知智慧和認知智慧。計算智慧方面,以 AlphaGo 打敗了人類圍棋最頂尖選手李世石和柯潔為標誌,已將人類遠遠拋在後面。感知智慧則以語音和影象技術為代表,對應於人類的視覺和聽覺,經過近十幾年深度學習、遷移學習等技術的發展,也在非常多領域超越了人類。人工智慧在近些年不斷的在計算智慧和感知智慧上發展,一方面是技術迅猛發展的原因,另外一方面也是人類並不擅長這兩種。然而,在認知智慧上,目前還有待技術層面的進一步突破,而這裡面的關鍵就是 NLP 技術。

 

一般認為,認知智慧是以語言為基礎,實現推理、思考、決策和想象。語言,是人類區別於動物的標誌性能力,而讓機器擁有語言能力的關鍵技術就是自然語言處理技術。當前計算機在認知智慧上還處於非常初級的階段,特別是在中文上。今年遍地開花的各類智慧音箱,隨便與之對話幾句便能夠感受到強烈的“智障”氣息。因此,為了達到更強的認知智慧,急需 NLP 技術的進一步發展。當前學術界的熱點也在往 NLP 領域遷徙,投向 NLP 方面的資本也在增加。

 

遷移學習和預訓練模型在 NLP 領域出現了突破

 

以 ImageNet 為代表的預訓練模型以及相應的遷移學習技術,促使了感知智慧的極大發展。為了提升認知智慧的水平,必須在 NLP 技術上有所突破。在深度學習出現以後,對於有大量標註資料的場景,比如中文和英文之間的機器翻譯,通過深度學習和 NLP 技術的結合能夠達到不錯的效果。然而對於缺乏標註資料的絕大多數場景,則依賴於好的預訓練模型以及遷移學習技術的發展。此前,這個在影象領域已經被證明了的正規化,在 NLP 領域一直髮展得不溫不火。大概是量變引起質變,從 Word2Vec 出現以來,NLP 領域的預訓練模型在 5 年內的積累,以及深度網路在 NLP 領域的應用,使得今年出現了突破。這裡面最耀眼的當屬 Google 剛剛提出的 BERT 預訓練模型以及基於 BERT 的遷移學習。

 

640?wx_fmt=jpeg

NLP領域的預訓練模型的發展歷史(配圖:達觀資料)

 

早在 2013 年 Google 提出了 Word2Vec 之後,NLP 領域的深度學習就開始使用預訓練模型,而後斯坦福大學提出的 GloVe 和 Facebook 提出的 Fasttext 則是進一步發展。然而在今年之前,這方面的嘗試大都侷限於使用淺層網路,在詞的層面上進行建模。針對具體的應用場景,要達到較好的效果依然需要非常大量的標註語料。預訓練深層模型以及之上的遷移學習在影象領域的成功,引領著 NLP 領域專家們也在思考如何實現同樣的正規化。多年的努力與探索,終於在今年迎來了豐收。

 

首先是年初發表於 NAACL-HIT 2018 的 ELMo 預訓練模型,用正向和反向兩個 LSTM 語言模型(BiLM)在通用語料上進行訓練,將得到的預訓練好的模型(即 ELMo)用於深度網路的輸入上,在多個任務上能夠明顯改善已有的模型的效果。

 

此後,FastAI 基於三層 AWD-LSTM 構建出的語言模型,使用大規模通用語料預訓練出 ULMFiT 模型。將該模型應用於特定領域,只要使用非常少量的標註資料就可以達到普通模型需要大量標註資料的效果。這個模型的成功,使得大家看到了遷移學習在 NLP 領域上的曙光。

 

緊接著,OpenAI 使用 Transformer 和無監督結合的方法在大規模通用語料上進行訓練,得到預訓練好的 GPT 模型。針對特定的場景,在預訓練好的 GPT 模型基礎上,用小得多的資料集進行有監督學習,獲得了當時最好的成績。

 

2018 年10月,Google 在 GPT 的基礎上進一步改進,提出了基於 Transofrmer 的 BERT 模型。在訓練 BERT 的過程中,Google 構造出 MLM(Masked Language Model)語言模型,這是一個“真”雙向語言模型。並在通用的大規模語料 BooksCorpus(800M words)加上英文維基百科(2,500M words)上進行無監督訓練,得到預訓練模型 BERT。論文中,使用預訓練的模型 BERT 在 11 個任務上進行有監督的微調(遷移學習),其效果全部達到當前最優。特別地,在斯坦福問答評測資料集(SQuAD 1.1)上超越了人類專家的評測結果。

 

640?wx_fmt=png

BERT、OpenAI GPT 和 ELMo 三個模型的示意圖

 

BERT 的出現及其在多個任務上進行遷移學習所達到非常好的效果,證明了預訓練模型和遷移學習的正規化在NLP領域同樣有效。這將在接下來的一段時間中,極大地促進 NLP 的發展。這是因為絕大多數場景都缺乏大量的標註語料,BERT 的成功使得人們看到了曙光。春江水暖鴨先知,也許可以說,NLP 的春天來了。

 

除了前面提到的遷移學習,其他遷移學習的方法也取得一些進展。比如對風格遷移的研究,多語言和跨語言的遷移學習等。除此之外,在知識圖譜領域中,應用於實體、關係和事件抽取的遷移技術也有一定的進展。

 

NLP各個方向的進展多姿多彩

 

在 NLP 上的遷移學習之外,深度強化學習(Deep Reinforcement Learning, DRL)技術在 NLP 上的應用也表現出色。深度強化學習最耀眼的表現莫過於 Google 的 AlphaZero,通過完全捨棄人類經驗,僅根據圍棋規則構建深度強化學習模型,通過超級計算力進行學習,並最終打敗了當前圍棋界公認的最頂尖的大師柯潔。這證明了強化學習技術的能力非凡,多個團隊將其在NLP領域進行了嘗試。這些嘗試包括使用 DRL 進行機器翻譯,摘要生成、資訊抽取、問答系統等,並都取得了非常不錯的效果。

 

生成對抗網路(GAN)也是當前最熱門的技術之一,今年在影象生成方面非進展非常大。特別值得一提的是,Deepmind 釋出了 BigGAN 模型,該模型生成的圖片非常的逼真,在 ImageNet 的評測集上從之前的最高分 52.52 提升到 66.3,效果的提升簡直慘無人道。然而,GAN 在 NLP 領域所取的成績則遜色很多。部分研究者使用 GAN 在資訊抽取上獲得不錯的效果,在自然語言生成 NLG(包括摘要生成等)上有所進展,並且在機器翻譯、詞性標註等方面進行了一些嘗試。

 

行業應用出現系統化和集約化

 

另外,同樣重要的一方面是如何將這些成果應用於工業界,幫助企事業單位和科研研所等提升效率。而這也決定了資本是否能夠持續投入,從而促使 AI  走向更強的認知智慧。可喜的是,各行各業對 NLP 的接受越來越高,也越來越希望使用 NLP 技術幫助他們實現精耕細作和提升效率。

 

系統化體現在需要運用 NLP 方方面面的技術,甚至結合其他人工智慧技術來實現業務的需求。從 NLP 傳統應用領域—搜尋說起。幾乎可以說,現代 NLP 技術是伴隨著搜尋引擎的發展一起成長的。然而,此前,搜尋系統上用到的 NLP 技術更多的是在字詞層面上,而今年開始,專業的搜尋幾乎都要求句段以及篇章級別的搜尋。

 

招聘領域是一個典型的場景,以往的搜尋引擎都是根據 HR 提供的關鍵詞進行簡歷搜尋,而今年,達觀智慧招聘提供的人崗匹配功能則是直接根據 JD(職位描述)來自動的從簡歷庫裡面搜尋簡歷,實現篇章級的搜尋功能,並在多個 10 萬員工級別的企業實施,效果非常好。與此類似的場景還包括根據專利搜尋相似專利,根據文件(比如 doc,pdf 等)搜尋相似文件等等。除此之外,時至今年,問答式搜尋幾乎已經成為垂直搜尋引擎的標配;與知識圖譜結合實現推理性搜尋也在部分領域(如金融、大型企業的資訊管理、科研機構等)嘗試中,未來可期。

 

與此同時,資訊抽取技術也取得了極大的發展。像 DRL(深度強化學習)和 GAN(對抗生成網路)等技術被應用到實體和關係的抽取環節中,從而對知識圖譜的構建起到較大的促進作用。目前工業界在行業知識圖譜的構建中,基於規則的演算法和基於模板的演算法依然佔據大多數,期待接下來能夠促進這些技術進展在知識圖譜中的廣泛使用,實現知識工程的自動化,為認知智慧的實現添磚加瓦。

 

文字的自動化稽核,也開始逐步被市場接受。文件稽核涉及多方面技術,是 AI 和 NLP 技術在工業界系統化應用的直接體現。其技術包括基於語言模型的錯別字稽核、通過資訊抽取技術進行關鍵要素的精準抽取、基於領域詞表或實體抽取稽核要素完整性和一致性,以及基於前述資訊之上構建布林邏輯的稽核。文字自動化稽核應用非常廣泛,像法務合同、金融類文件(如財報、股票發行說明書等)、新聞和公文等等。

 

640?wx_fmt=jpeg

文件審閱系統(配圖:達觀資料)

 

前面提到的大多是從 NLP 的“讀”(即 NLU)的層面的應用,與之相應的 NLG 方面則剛剛出現萌芽,大面積的應用還未出現,期待在接下里的一年裡技術上能夠有所突破,從而使得AI寫作方面在工業界的應用能夠全面開花。

 

目前,NLG 部分的應用主要體現在幾個方面:部分公司在嘗試使用 NLG 技術來進行新聞寫作,從而實現部分新聞(如股市收評,體育快報等)的實時推送;部分技術領先的智慧客服企業會使用NLG技術來生成問題的回答,從而實現更接近人的互動。今年 5 月份的 Google Assistant 的演示表現出來的驚豔的一幕,也有 NLG 的一份功勞。

 

除了應用多種技術來實現系統化的應用之外,集約化也是今年 NLP 領域的主題之一。“集約”原意是指農業上在同一土地面積上投入較多的生產資料和勞動,進行精耕細作,以提高單位面積產量從而來增加產品總量。這裡是指將 NLP 技術應用於某個特定領域,從而提高生成效率。首先是司法方面,嘗試使用 NLP 技術來幫助法院法官的審判。司法智慧所要求能夠深入理解長篇文件的內容,而這涉及到對大規模語料的訓練以及將結果遷移到專業領域。而遷移學習在文字上的應用恰好在今年實現了突破,故而司法智慧這類的領域應用則是水到渠成的。同樣的應用還有科技情報、企業內部的知識管理,以及金融領域的監管智慧等等。

 

從NLP邁向認知智慧

 

今年 NLP 技術的突破可喜可賀,行業應用也全面開花。然而,NLP 的核心問題依然存在,主要體現在幾個方面:

 

  • NLU 有待進一步突破,提高機器理解文字的能力,與人類進行更好地互動。

  • 標註語料的積累;由於 NLP 的特點,與影象、語音領域相比,即便專家也很難做好語料標註,質與量的積累都是關鍵因素。

  • 能效比有待提升;目前雖然很多模型效果不錯,但其訓練和預測過程所需時間很長,對計算力的要求非常高。

  • 遷移學習研究與應用的還需更大的發展;可以更低成本地實現從通用到領域、從領域到通用的知識遷移;

  • 亟待 NLG 技術的進一步發展;目前 NLG 方面的突破還乏善可陳。

  • 期待知識工程和知識圖譜領域的新進展與突破;如何自動、持續地構建更加全面的知識庫是一個極大的挑戰。

 

總的來說,從科研界到工業界再到資本市場的積極投入,人才也不斷地積累,NLP 技術在未來幾年會更加蓬勃發展,相信上面提到的這些問題在接下來的幾年內會被逐步的解決。特別地,延續今年的突破,明年遷移學習在 NLP 的應用還會上一個臺階;NLG 方面今年已見曙光,期待明年在此方向有所突破。標註語料庫、知識工程和知識圖譜等概念已經深入產業的人心,這方面會持續積累,也許未來 3 到 5 年會實現量變到質變的變化。而這裡面最難的當屬能效比,可能需要從基礎科學到晶片到 NLP 等各方面專家的努力,期待的是在未來 5 年能有所發展。

 

當這些問題在被逐步解決的時候,也是機器逐步實現認知智慧的時候,從而實現在大部分場景下幫助人類解決文書處理相關的工作,讓人類不用再加班,與機器的互動更加自然和諧,使得我們的生活更加美好。而 NLP 人工作的點點滴滴,最終都會匯聚在這條美好的生活的大江中。“合抱之木,生於毫末”,對於 NLP 來說,我們不斷在成長,蒼天大樹即將長成,認知智慧咫尺可期。

 

作者簡介:王文廣 達觀資料副總裁 

在人工智慧領域和系統架構設計上有十餘年工作經驗,浙江大學計算機碩士。曾擔任金融 AI 公司 Kavout 首席架構師,將人工智慧和自然語言處理技術應用於金融、證券、量化交易等領域,效果得到美國大型基金公司認可。曾負責盛大創新院搜尋、推薦、廣告等多個專案的架構設計工作,所設計和開發的系統具備海量資料的快速處理和高度智慧的挖掘能力,多次獲得嘉獎。早期在百度負責 MP3 搜尋、語音識別與搜尋和音訊指紋等系統的核心研發。

 

 

--【完】--

 

2018 AI開發者大會

 

AI技術年度盛會即將開啟!11月8-9日,來自Google、Amazon、微軟、Facebook、LinkedIn、阿里巴巴、百度、騰訊、美團、京東、小米、位元組跳動、滴滴、商湯、曠視、思必馳、第四正規化、雲知聲等企業的技術大咖將帶來工業界AI應用的最新思維。

 

如果你是某個AI技術領域的專業人才,或想尋求將AI技術整合至傳統企業業務當中,掃碼填寫大會註冊資訊表,我們將從中挑選出20名相關性最高的幸運讀者,送出單場分論壇入場券。大會嘉賓陣容和議題,請檢視文末海報。

 

640?wx_fmt=png

 

此外,如果你想與所有參會大牛充分交流溝通,點選閱讀原文購票,使用優惠碼:AI2018-DBY 購買兩日通票,立減999元;此外大會還推出了1024定製票,主會+分會自由組合,精彩隨心。

 

640?wx_fmt=jpeg