1. 程式人生 > >在自然語言處理領域,哪些企業的發展遙遙領先?(附報告)

在自然語言處理領域,哪些企業的發展遙遙領先?(附報告)

640?wx_fmt=png

後臺回覆關鍵詞“NLP”下載研究報告(含人才分佈圖)

目錄

  • 第 1 章 自然語言處理概念篇

  • 第 2 章 自言語言處理技術篇

  • 第 3 章 自然語言處理人才篇

  • 第 4 章 自然語言處理應用篇

  • 第 5 章 自然語言處理趨勢篇

自然語言處理是包括了電腦科學、語言學心理認知學等一系列學科的一門交叉學科,這些學科性質不同但又彼此相互交叉。

1950年圖靈提出了著名的“圖靈測試”,這一般被認為是自然語言處理思想的開端。

640?wx_fmt=png

20世紀50年代到70年代自然語言處理主要採用基於規則的方法。

70年代以後隨著網際網路的高速發展,自然語言處理思潮由理性主義向經驗主義過渡,基於統計的方法逐漸代替了基於規則的方法。

從2008年到現在,在影象識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究。

640?wx_fmt=png

由最初的詞向量到2013年word2vec,將深度學習與自然語言處理的結合推向了高潮,並在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。

接下來我們將為大家介紹自然語言處理的業界發展,涵蓋了以下企業。

640?wx_fmt=png

微軟亞洲研究院

微軟亞洲研究院1998年成立自然語言計算組,研究內容包括多國語言文字分析、機器翻譯、跨語言資訊檢索和自動問答系統等。

640?wx_fmt=png

這些研究專案研發了一系列實用成果,如IME(Input Method Editors輸入法編輯器,它是一種專門的應用程式, 用來輸入代表東亞地區書面語言文字的不同字元。)、對聯遊戲、Bing詞典、Bing翻譯器、語音翻譯、搜尋引擎等,為微軟產品做出了重大的貢獻。

640?wx_fmt=png

微軟IME

640?wx_fmt=jpeg

微軟對聯遊戲

640?wx_fmt=jpeg

微軟必應詞典

並且在自然語言處理頂級會議,例如ACL、COLING等會議上發表了許多論文。

語音翻譯

2017年微軟在語音翻譯上全面採用了神經網路機器翻譯,並新擴充套件了Microsoft Translator Live Feature。

可以在演講和開會時,實時同步在手機端和桌面端,同時把講話者的話翻譯成多種語言。

640?wx_fmt=jpeg

其中最重要的技術是對於源語言的編碼以及引進的語言知識,同時,微軟還表示,將來要將知識圖譜納入神經網路機器翻譯中規劃語言理解的過程中。

人機對話

小娜現在已經擁有超過1.4億使用者,在數以十億計的裝置上與人們進行交流,並且覆蓋了十幾種語言。

640?wx_fmt=png

有聊天機器人小冰,正在試圖把各國語言的知識融合在一起,實現一個開放語言自由聊天的過程,目前小冰實現了中文、日文和英文的覆蓋,有上億使用者。

640?wx_fmt=png

Google

Google是最早開始研究自然語言處理技術的團隊之一,作為一個以搜尋為核心的公司,Google對自然語言處理更為重視。

640?wx_fmt=png

Google擁有著海量資料,可以搭建豐富龐大的資料庫,可以為其研究提供強大的資料支撐。

Google對自然語言處理的研究側重於應用規模、跨語言和跨領域的演算法。

機器翻譯

640?wx_fmt=jpeg

知識圖譜

Google的知識圖譜更是遙遙領先,例如自動挖掘新知識的準確程度、文字中命名實體的識別、純文字搜尋詞條到在知識圖譜上的結構化搜尋詞條的轉換等,效果都領先於其他公司,而且很多技術都實現了產品化。

640?wx_fmt=jpeg

語音識別

Google一直致力於投資語音搜尋技術和蘋果公司的siri競爭,自2012年以來將神經網路應用於這一領域,使語音識別錯誤率極大降低。

2011年收購語言資訊平臺SayNow,把語音通訊、點對點對話、以及群組通話和社交應用融合在一起。

2014年收購了SR Tech Group的多項語音識別相關專利。

Facebook

Facebook涉獵自然語言處理較晚,2013年開始發展語音翻譯,2015年開始語音識別的研發之路。

語音翻譯

發展道路如下圖所示

640?wx_fmt=png

語音識別

2015年,Facebook相繼建立語音識別和對話理解工具,開始了語音識別的研發之路。

2016年Facebook開發了一個響應“Hey Oculus”的語音識別系統。

並在2018年初開發了wav2letter,這是一個簡單高效的端到端自動語音識別(ASR)系統。

百度

百度自然語言處理部是百度最早成立的部門之一,研究涉及以下方面。

640?wx_fmt=png

百度在深度問答方向經過多年打磨,積累了問句理解、答案抽取、觀點分析與聚合等方面的一整套技術方案,目前已經在搜尋、度祕等多個產品中實現應用。

百度翻譯目前支援全球28種語言,覆蓋756個翻譯方向,支援文字、語音、影象等翻譯功能,並提供精準人工翻譯服務,滿足不同場景下的翻譯需求,釋出了世界上首個線上神經網路翻譯系統,並獲得2015年度國家科技進步獎。

阿里巴巴

阿里自然語言處理為其產品服務,在電商平臺中構建知識圖譜實現智慧導購,同時進行全網使用者興趣挖掘,在客服場景中也運用自然語言處理技術打造機器人客服。

例如螞蟻金融智慧小寶、淘寶賣家的輔助工具千牛外掛等,同時進行語音識別以及後續分析。

640?wx_fmt=jpeg

阿里的機器翻譯主要與其國家化電商的規劃相聯絡,2017年初阿里正式上線了自主開發的神經網路翻譯系統,進一步提升了其翻譯質量。

640?wx_fmt=png

騰訊

AI Lab是騰訊的人工智慧實驗室,研究領域包括計算機視覺、語音識別、自然語言處理、機器學習等。

640?wx_fmt=jpeg

其研發的騰訊文智自然語言處理基於平行計算、分散式爬蟲系統,結合獨特的語義分析技術,可滿足自然語言處理、轉碼、抽取、資料抓取等需求。

在機器翻譯方面,2017年騰訊宣佈翻譯君上線“同聲傳譯”新功能,使用者邊說邊翻的需求得到滿足,語音識別+NMT等技術的應用保證了邊說邊翻的速度與精準性。

京東

京東在人工智慧的浪潮中也不甘落後。京東AI開放平臺基本上由模型定製化平臺和線上服務模組構成,其中線上服務模組包括計算機視覺、語音互動、自然語言處理和機器學習等。

按照京東的規劃,NeuHub平臺將作為普惠性開放平臺,不同角色均可找到適合自己的場景,例如用簡單程式碼即可實現對影象質量的分析評估。

640?wx_fmt=jpeg

從業務上說,平臺可以支撐科研人員、演算法工程師不斷設計新的AI能力以滿足使用者需求。

並深耕電商、供應鏈、物流、金融、廣告等多個領域應用,探索試驗醫療、扶貧、政務、養老、教育、文化、體育等多領域應用。聚焦於新技術和行業趨勢研究,孵化行業最新落地專案。

科大訊飛

科大訊飛股份有限公司成立於1999年,是一家專業從事智慧語音及語言技術、人工智慧技術研究、軟體及晶片產品開發、語音資訊服務及電子政務系統整合的國家級骨幹軟體企業。

640?wx_fmt=jpeg

科大訊飛作為中國智慧語音與人工智慧產業領導者,在語音合成、語音識別、口語評測、自然語言處理等多項技術上擁有國際領先的成果。

科大訊飛成立之時就開始在語言和翻譯領域佈局專案。基於深度神經網路演算法上的創新和突破,在翻譯方面的發展如下圖所示。

640?wx_fmt=png

後臺回覆關鍵詞“NLP”下載研究報告(含人才分佈圖)

AMiner屬於清華-青島資料科學研究院科技大資料研究中心。

(www.ids.tsinghua.edu.cn)

AMiner諮詢產品版權為AMiner團隊獨家所有,擁有唯一著作權。AMiner諮詢產品是AMiner團隊的研究與統計成果,其性質是供客戶內部參考的商業資料。

AMiner諮詢產品為有償提供給購買該產品的客戶使用,並僅限於該客戶內部使用。未獲得AMiner團隊書面授權,任何人不得以任何方式在任何媒體上(包括網際網路)公開發布、複製,且不得以任何方式將本產品的內容提供給其他單位或個人使用。如引用、刊發,需註明出處為“AMiner.org”,且不得對本報告進行有悖原意的刪節與修改。否則引起的一切法律後果由該客戶自行承擔,同時AMiner團隊亦認為其行為侵犯了AMiner團隊著作權,AMiner團隊有權依法追究其法律責任。

AMiner諮詢產品是基於AMiner團隊及其研究員認為可信的公開資料,但AMiner團隊及其研究員均不保證所使用的公開資料的準確性和完整性,也不承擔任何投資者因使用本產品與服務而產生的任何責任。

行業研究報告是AMiner團隊智慧服務體系的重要組成部分。如對有關資訊或問題有深入需求的客戶,歡迎使用AMiner團隊專項研究智慧服務。

640?wx_fmt=png640?wx_fmt=jpeg