1. 程式人生 > >期待已久!鄧力、劉洋等合著的這本NLP書你確定不想看?

期待已久!鄧力、劉洋等合著的這本NLP書你確定不想看?

機器之心編輯,參與:機器之心編輯部、專知。

2017 年,機器之心就獲知鄧力、劉洋教授等人在編寫一本 NLP 領域的書籍《Deep Learning in Natural Language Processing》,一直以來都對此書有所期待。此書介紹了深度學習在 NLP 常見問題中的應用,還對 NLP 未來發展的研究方向進行了探討,包括神經符號整合框架、基於記憶的模型、先驗知識融合以及深度學習正規化(如無監督學習、生成式學習、多模學習、多工學習和元學習等)。機器之心經劉洋教授授權對此書內容進行了部分編譯介紹並提供 PDF 下載,感興趣的讀者可在文章下留言獲取。

官方書籍地址:www.springer.com/gp/book/978…

自然語言處理(NLP)旨在使計算機可以智慧地處理人類語言,是跨越人工智慧、計算科學、認知科學、資訊處理和語言學的重要跨學科領域。由於計算機和人類語言之間的互動技術的進步,語音識別、對話系統、資訊檢索、問答和機器翻譯等 NLP 應用已經開始重塑人們識別、獲取和利用資訊的方式。

NLP 的發展經歷了三次浪潮:理性主義、經驗主義和深度學習。在第一次浪潮中,理性主義方法主張設計手工製作的規則,將知識融入 NLP 系統,這種主張假設人類思維中的語言知識是通過通用繼承預先固定下來的。在第二次浪潮中,經驗方法假設豐富的感官輸入和表面形式的可觀察語言資料是必需的,並且足以使大腦學習自然語言的詳細結構。因此,人們開發了概率模型來發現大型語料庫中語言的規律性。在第三次浪潮中,受生物神經系統的啟發,深度學習利用非線性處理的層次模型,從語言資料中學習內在表徵,旨在模擬人類的認知能力。

深度學習和自然語言處理的交叉在實際任務中取得了驚人的成功。語音識別是深度學習深刻影響的第一個工業 NLP 應用。隨著大規模訓練資料變得可用,深度神經網路實現了比傳統經驗方法低得多的識別誤差。深度學習在 NLP 領域的另一個成功應用是機器翻譯。使用神經網路對人類語言之間的對映進行建模的端到端神經機器翻譯已經證明可以大大提高翻譯質量。因此,神經機器翻譯已迅速成為大型科技公司(谷歌、微軟、Facebook、百度等)提供的主要商業線上翻譯服務的新技術。NLP 的許多其他領域,包括語言理解和對話、詞法分析和解析、知識圖譜、資訊檢索、文字問答、社交計算、語言生成和文字情感分析,也通過深度學習取得了很大的進步,掀起了 NLP 發展的第三次浪潮。如今,深度學習是應用於幾乎所有 NLP 任務的主導方法。

作者對三大浪潮分析得出的結論是:當前的深度學習技術是從前兩大浪潮發展的 NLP 技術在概念和正規化上的革命。這場革命的關鍵支柱包括語言實體(子詞、單詞、短語、句子、段落、文件等)的分散式表示,通過嵌入、嵌入的語義泛化、語言的長跨深度序列建模、有效地表示從低到高的語言水平的分層網路以及端到端的深度學習方法,來共同完成許多 NLP 任務。在深度學習浪潮之前,這些都不可能,不僅是因為在之前的浪潮中缺乏大資料和強大的計算,而且同樣重要的是,近年來我們錯過了正確的框架,直到深度學習正規化出現。

這本書的主要目的是綜述深度學習在 NLP 領域的近期前沿應用。本書會展示當前最佳的 NLP 為中心的深度學習研究,並聚焦於探討深度學習在主要的 NLP 應用中發揮的作用,包括口語理解、對話系統、詞法分析、語法分析、知識圖譜、機器翻譯、問答、情感分析、社交計算和從影象生成自然語言。本書適用於有計算機技術背景的讀者,包括碩士生、博士生、博士後研究員、教學者和產業界研究者,以及任何想快速瞭解 NLP 深度學習最新進展的讀者。

本書由全球知名的 Deep Learning 和 NLP 專家鄧力博士領導國內外一批活躍的 NLP 研究人員撰寫,全面介紹了深度學習如何解決 NLP 中的基本問題,並彙總了大多數深度學習方法應用於 NLP 領域的最新進展(包括 2017 下半年的最新研究進展)。

本書第一章首先回顧了 NLP 的基礎知識以及本書後續章節所涵蓋的 NLP 的主要範圍,然後深入探討了 NLP 的歷史發展,總結為三大浪潮和未來方向。第 2-10 章對應用於 NLP 的深度學習最新進展進行了深入研究,分為九個單獨的章節,每個章節涵蓋 NLP 的一個(很大程度上是獨立的)應用領域。每章的主體由在各自領域積極工作的主要研究人員和專家撰寫。

目錄如下:

  • Chapter 1: 深度學習與自然語言簡介(鄧力,劉洋)

  • Chapter 2: 對話理解系統中的深度學習(Gokhan Tur, Asli Celikyilmaz,何曉冬,Dilek Hakkani-TÜr, 鄧力)

  • Chapter 3: 語音與文字對話系統中的深度學習(Asli Celikyilmaz, 鄧力, and Dilek Hakkani-TÜr)

  • Chapter 4: 語法與詞法分析中的深度學習(車萬翔 張嶽)

  • Chapter 5: 知識圖譜中的深度學習(劉知遠,韓先培)

  • Chapter 6: 機器學習中的深度學習(劉洋,張家俊)

  • Chapter 7: 問答系統中的深度學習(劉康,馮巖鬆)

  • Chapter 8: 情感分析中的深度學習(唐都鈺,張梅山)

  • Chapter 9: 社交計算中的深度學習(趙鑫,李晨亮)

  • Chapter 10: 看圖說話中的深度學習(何曉冬,鄧力)

  • Chapter 11: 後記(鄧力,劉洋)

在調查了應用深度學習的 NLP 領域的突出成功之後,作者指出並分析了當前深度學習技術的幾個主要侷限性,涉及一般以及更具體的 NLP 領域。這項調查為 NLP 指出了五個未來的前沿發展方向:神經 - 符號整合框架、探索更好的記憶模型、更好地利用知識,以及更好的深度學習正規化(包括無監督和生成學習、多模態和多工學習和元學習)。

整本書共有 11 章,包含了深度學習在 NLP 中各個領域的研究與應用,並且在全書的最後一部分,作者們討論了基於 DL 的 NLP 如何擴充套件到更為通用領域。泛化的本質是將深度神經網路(如:引數化功能塊的計算圖表)從靜態轉為動態。這意味著泛化可以使由許多可微分模型組成的網路架構以資料相關的方式進行實時建立。正如本書很多章節中使用邏輯表示式、條件、賦值和迴圈等進行程式化程式設計,在可微分程式設計模型中,涉及到儲存、注意、堆疊、佇列和指標模組的深度神經網路架構亦如此實現。

實際上,當前的深度學習框架(如: PyTorch, TensorFlow, Chainer, MXNet, CNTK 等)更要追求模型的靈活性,因為一旦高效的編譯器被開發出來,我們將需採用一個全新的軟體實現方式。以迴圈和條件判斷為主的傳統程式設計邏輯將被淘汰,取而代之的是由神經網路實現的引數化功能模組的組裝圖表。其中的關鍵技術在於,基於模型的可微分性,使用高效的梯度優化方法,通過端到端的反向傳播學習從資料中自動訓練出組裝圖表中的所有引數,比如神經網路的權重以及定義網路非線性和儲存模組的引數。

總之,相信在不久的將來,以廣義深度學習或可微分程式設計框架所建立的更加強大、更加靈活、更加先進的學習架構可以解決本書中所列舉的 NLP 前沿研究領域的遺留問題。不止於本書中所提及的研究成果,新的成就將會像雨後春筍般湧現,這一切都將會使我們越來越接近通用人工智慧實現的日子。那時,NLP 將會成為通用人工智慧的一個重要組成部分呈現在大家面前。

此外,讀者可以看看原書語言建模與基於注意力的機器翻譯兩小節截圖,從而對整本書的風格與內容有大概的瞭解:


作者介紹

主編

鄧力博士(人工智慧科學家),2017 年 5 月至今任對衝基金公司 Citadel 首席人工智慧官(Chief Artificial-Intelligence Officer)。之前任微軟人工智慧首席科學家。鄧力在 2009 年就同 Geoffrey Hinton 教授合作,首次提出並將深度神經網路應用到大規模語言識別中,顯著提高了機器對語音的識別率,極大推動了人機互動領域的發展與進步。目前,鄧力的研究方向主要為應用於大資料、語音、文字、影象和多模態處理的深度學習和機器智慧方法,以及人工智慧和深度學習在金融領域的應用。在語音、NLP、大資料分析、企業智慧、網際網路搜尋、機器智慧、深度學習等領域,鄧力曾獲 70 多項美國或國際專利。同時,他還獲得過 IEEE、國際言語通訊協會、美國聲學協會、亞太訊號與資訊處理協會、微軟等組織授予的多項榮譽。2015 年,憑藉在深度學習與自動語音識別方向做出的傑出貢獻,鄧力獲 IEEE 技術成就獎。

劉洋博士,清華大學電腦科學與技術系長聘副教授、博士生導師、智慧技術與系統實驗室主任,國家優秀青年基金獲得者。研究方向是自然語言處理,在自然語言處理和人工智慧領域重要國際刊物 Computational Linguistics 和國際會議 ACL、EMNLP、IJCAI 和 AAAI 上發表 50 餘篇論文,獲 ACL 2017 傑出論文獎和 ACL 2006 優秀亞洲自然語言處理論文獎。承擔 10 餘項國家自然科學基金、國家重點研發計劃、國家 863 計劃、國家科技支撐計劃和國際合作專案,2015 年獲國家自然科學基金優秀青年專案資助。獲得 2015 年國家科技進步二等獎、2014 年中國電子學會科學技術獎科技進步類一等獎、2009 年北京市科學技術獎二等獎和 2014 年中國中文資訊學會錢偉長中文資訊處理科學技術獎漢王青年創新獎一等獎等多項科技獎勵。擔任或曾擔任國際計算語言學學會亞太分部執委會委員、SIGHAN Information Officer、中國中文資訊學會青年工作委員會主任兼計算語言學專業委員會祕書長、Computational Linguistics 編委、ACM TALLIP 副編輯、ACL 2015 組織委員會共同主席、ACL 2014 講習班共同主席、ACL 2017/2018 與 EMNLP 2016/2018 程式委員會機器翻譯領域共同主席、IJCAI 2016/2018 和 AAAI 2019 資深程式委員會委員。

主要參與作者

  • 何曉東博士是京東 AI 研究院常務副院長、深度學習及語音和語言實驗室主任。他於 1996 年獲得清華大學(北京)學士學位,1999 年獲得中國科學院(北京)碩士學位,並於 2003 獲哥倫比亞大學博士學位。他的研究興趣主要集中在人工智慧領域,包括深度學習,自然語言,計算機視覺,語音,資訊檢索和知識表示。加入京東之前,何曉冬博士就職於美國微軟雷德蒙德研究院,擔任主任研究員(Principal Researcher)及深度學習技術中心(DLTC)負責人,同時在位於西雅圖的華盛頓大學兼任教授、博士生導師。微軟在 2018 年 1 月推出的人工智慧繪畫機器人正是出自何曉冬團隊的作品。

  • 車萬翔 哈爾濱工業大學計算機學院副教授、博士生導師。斯坦福大學訪問學者,合作導師 Christopher Manning 教授。現任中國中文資訊學會計算語言學專業委員會委員、青年工作委員會副主任;中國計算機學會高階會員、YOCSEF 哈爾濱主席。主要研究領域為自然語言處理,在 ACL、EMNLP、AAAI、IJCAI 等國內外高水平期刊和會議上發表學術論文 40 於篇,其中 AAAI 2013 年的文章獲得了最佳論文提名獎,出版教材 2 部,譯著 2 部。目前承擔國家自然科學基金、973 等多項科研專案。負責研發的語言技術平臺(LTP)已被 600 餘家單位共享,提供的線上「語言云」服務已有使用者 1 萬餘人,並授權給百度、騰訊、華為等公司使用。2009 年,獲 CoNLL 國際多語種句法和語義分析評測第 1 名。2016 年獲黑龍江省科技進步一等獎;2015 和 2016 連續兩年獲得 Google Focused Research Award(谷歌專注研究獎);2012 年,獲黑龍江省技術發明獎二等獎;2010 年獲錢偉長中文資訊處理科學技術獎一等獎、首屆漢王青年創新獎等多項獎勵。

  • 張嶽,新加坡科技設計大學助理教授。獲清華大學電腦科學與技術學士學位,牛津大學電腦科學碩士和博士學位。2012 年加入新加坡科技設計大學之前,曾在英國劍橋大學擔任博士後研究員。對自然語言處理、機器學習和人工智慧有濃厚的研究興趣,主要從事統計句法分析、文字生成、機器翻譯、情感分析和股票市場分析的研究。任 ACM/IEEE TALLIP 副主編及 COLING 2014、NAACL 2015、EMNLP 2015、ACL 2017 和 EMNLP 2017 的程式委員會領域主席和 IALP 2017 的程式委員會主席。

  • 劉知遠,清華大學計算機系副教授、博士生導師。主要研究方向為表示學習、知識圖譜和社會計算。2011 年獲得清華大學博士學位,已在 ACL、IJCAI、AAAI 等人工智慧領域的著名國際期刊和會議發表相關論文 60 餘篇,Google Scholar 統計引用超過 2700 次。承擔多項國家自然科學基金。曾獲清華大學優秀博士學位論文、中國人工智慧學會優秀博士學位論文、清華大學優秀博士後、中文資訊學會青年創新獎,入選中國科學青年人才託舉工程、CCF-Intel 青年學者提升計劃。擔任中文資訊學會青年工作委員會執委、副主任,中文資訊學會社會媒體處理專委會委員、祕書,SCI 期刊 Frontiers of Computer Science 青年編委,ACL、COLING、IJCNLP 領域主席。

  • 韓先培,博士,中國科學院軟體研究所基礎軟體國家工程研究中心 / 電腦科學國家重點實驗室副研究員。主要研究方向是資訊抽取、知識庫構建、語義計算以及智慧問答系統。在 ACL、SIGIR 等重要國際會議發表論文 20 餘篇。韓先培是中國中文資訊學會會員,中國中文資訊學會語言與知識計算專業委員會祕書長及中國中文資訊學會青年工作委員會委員。

  • 張家俊於中科院自動化所獲得博士學位,現任中科院自動化所模式識別國家重點實驗室副研究員,中國科學院青年創新促進會會員。研究方向為自然語言處理、機器翻譯、跨語言文字資訊處理、深度學習等。現任人工智慧學會青年工作委員會常務委員、中文資訊學會計算語言學專委會和青年工作委員會委員。在國際著名期刊 IEEE/ACM TASLP、IEEE Intelligent Systems、ACM TALLIP 與國際重要會議 AAAI、IJCAI、ACL、EMNLP、COLING 等發表學術論文 40 餘篇。曾獲 PACLIC-2009、NLPCC-2012(2017) 和 CWMT-2014 最佳論文獎。2014 年獲中國中文資訊學會「錢偉長中文資訊處理科學技術獎」一等獎(排名第三)。2015 年入選首屆中國科協「青年人才託舉工程」計劃。

  • 劉康,博士,現任中科院自動化所模式識別國家重點實驗室副研究員,西安電子科技大學客座教授。研究領域包括資訊抽取、網路挖掘、問答系統等,同時也涉及模式識別與機器學習方面的基礎研究。在自然語言處理、知識工程等領域國際重要會議和期刊發表論文九十餘篇(如 TKDE、ACL、IJCAI、EMNLP、COLING、CIKM 等),獲得 KDD CUP 2011 Track2 全球亞軍,COLING 2014 最佳論文獎,首屆「CCF - 騰訊犀牛鳥基金卓越獎」、2014 年度中國中文資訊學會「錢偉長中文資訊處理科學技術獎 - 漢王青年創新一等獎」、2015、2016 Google Focused Research Award 等。

  • 馮巖鬆 北京大學電腦科學與技術研究所講師。2011 年畢業於英國愛丁堡大學,獲得資訊科學博士學位。主要研究方向包括自然語言處理、資訊抽取、智慧問答以及機器學習在自然語言處理中的應用;研究小組已連續三年在面向結構化知識庫的知識問答評測 QALD 中獲得第一名;相關工作已發表在 TPAMI、ACL、EMNLP 等主流期刊與會議上。作為專案負責人或課題骨幹已承擔多項國家自然科學基金及科技部 863 計劃專案。分別在 2014 和 2015 年獲得 IBM Faculty Award。

  • 唐都鈺,微軟亞洲研究院自然語言計算組研究員,主要從事包括智慧問答、語義理解、常識推理等在內的自然語言處理基礎研究。唐都鈺博士論文題目為《基於表示學習的文字情感分析研究》獲 2016 年中國中文資訊學會優秀博士學位論文獎。

  • 張梅山,新加坡科技與設計大學,博士後研究員。張梅山博士分別於 2004 年、2008 年和 2014 年獲得中國地質大學 (武漢) 物理學學士、中科院軟體所計算機應用技術碩士和哈爾濱工業大學計算機應用技術博士學位,目前任職新加坡科技與設計大學博士後研究員。近年來發表各類論文 23 篇,其中,AAAI、ACL、EMNLP、COLING 等領域頂級會議論文 11 篇。目前的主要研究興趣為自然語言處理、情感分析和深度學習。

  • 趙鑫,中國人民大學資訊學院副教授,近五年內在國內外著名學術期刊與會議上發表論文近 60 篇,其中包括資訊檢索領域頂級學術期刊 ACM TOIS 和學術會議 SIGIR、資料探勘領域頂級學術期刊 IEEE TKDE/ACM TKDD 和學術會議 SIGKDD、自然語言處理頂級會議 ACL/EMNLP/COLING。所發表的學術論文取得了一定的關注度,據 Google Scholar 統計(搜尋 Wayne Xin Zhao),已發表論文共計被引用近 1800 次。擔任多個重要的國際會議或者期刊評審。目前承擔國家自然科學基金青年專案一項和北京市自然科學基金面上專案一項,以及橫向專案多項。

  • 李晨亮,男,博士,副教授, 碩士生導師,2013 年畢業於新加坡南洋理工大學計算機工程學院, 獲博士學位。同年由武漢大學計算機學院引進,獲得優秀青年骨幹教師啟動資金。2015 年入選武漢大學珞珈青年學者。研究興趣包括資訊檢索、資料探勘 (文字挖掘)、自然語言處理、機器學習和社交媒體分析。其主要科研成果已先後發表在國際頂級學術期刊和會議上;擔任中國中文資訊學會青年工作委員會委員、社交媒體專委會委員、資訊檢索專委會委員。作為骨幹成員參與新加坡教育部科學基金專案 1 項,新加坡國防部科技專案 1 項。2016 年指導碩士生在 CCF-A 類會議 SIGIR2016 上發表長文論文一篇,並獲大會最佳學生論文提名獎(Best Student Paper Award Honorable Mention)