1. 程式人生 > >NLP 學習祕笈,從入門到進階 | 書單

NLP 學習祕笈,從入門到進階 | 書單

自然語言處理(NLP)作為人工智慧研究的核心領域之一,長久以來都受到廣泛關注。微軟全球執行副總裁沈向洋博士曾表示“懂語言者得天下,人工智慧對人類影響最為深刻的就是自然語言方面。”現在很多研究人員都在進入自然語言領域,希望可以解決“讓機器理解人類語言”這一難題。

為了幫助大家更好地學習NLP,微軟亞洲研究院自然語言計算組資深研究員韋福如為大家推薦了一些關於自然語言學習方面經典的書籍和課程,分為入門級和進階級兩大類。

好,同學們現在都準備好了嗎?請繫好安全帶,我們這輛開往“NLP大佬界”方向的車就要發車了!

入門篇

主要目標:熟悉和了解自然語言處理領域的基本術語、任務定義和基本演算法,比如輸入輸出、評價標準和應用場景。為以後的進一步學習、科研、產品開發以及學術和技術交流奠定基礎。

Speech and Language Processing, 2nd Edition
作者:Daniel Jurafsky and James H. Martin
中文譯名:語音與語言處理
適合人群:初級到中級學者
推薦指數:★★★★★

圖片描述

主要內容:本書內容涵蓋了自然語言處理的方方面面,從底層的詞法分詞、語法分析和語義分析,到和應用更為接近的自然語言處理任務,如資訊抽取、機器翻譯、自動問答、文字摘要、對話系統等。書中將自然語言處理、計算語言學以及語音識別等內容融合在一起,把各種技術相互聯絡起來,讓讀者瞭解怎樣才能最佳地利用每種技術,怎樣才能將各種技術結合起來使用。

推薦理由:最經典的自然語言處理的入門教程,也被國外許多著名大學選為自然語言處理和計算語言學課程的主要教材。本書寫作風格引人入勝,深入技術細節而又不讓人感覺枯燥,不僅可以作為高等學校自然語言處理和計算語言學等課程的本科生和研究生教材,對於自然語言處理相關領域的研究人員和技術人員也是不可或缺的權威參考書。

Foundations of Statistical Natural Language Processing
作者:Christopher Manning and Hinrich Schütze
中文譯名:統計自然語言處理基礎
適合人群:初級到中級學者
推薦指數:★★★★★

圖片描述

主要內容:本書涵蓋的內容十分廣泛,分為四個部分,共16章,包括了構建自然語言處理軟體工具將用到的幾乎所有理論和演算法。全書的論述過程由淺入深,從數學基礎到精確的理論演算法,從簡單的詞法分析到複雜的語法分析,適合不同水平的讀者群的需求。同時,《統計自然語言處理基礎:國外電腦科學教材系列》將理論與實踐緊密聯絡在一起,在介紹理論知識的基礎上給出了自然語言處理技術的高層應用(如資訊檢索等)。

推薦理由:經典的統計自然語言處理的入門教材。內容涉及統計自然語言處理用到的數學基礎,詞法到語法分析,以及自然語言處理的基本任務(比如文字分類、聚類,統計機器翻譯,以及資訊檢索)。本教材成書較早(1999年),但是自然語言處理領域的基本概念和任務沒有太大的變化,仍然適用於初學者快速瞭解自然語言處理相關的概念和任務。

統計自然語言處理(第2版)
作者:宗成慶
適合人群:初級到中級學者
推薦指數:★★★★☆

圖片描述

主要內容:本書介紹了統計自然語言處理的基本概念、理論方法和最新研究進展,內容包括形式語言與自動機及其在自然語言處理中的應用、語言模型、隱馬爾可夫模型、語料庫技術、漢語自動分詞與詞性標註、句法分析、詞義消歧、篇章分析、統計機器翻譯、語音翻譯、文字分類、資訊檢索與問答系統、自動文摘和資訊抽取、口語資訊處理與人機對話系統等。

推薦理由:本書既有對基礎知識和理論模型的介紹,也有對相關問題的研究背景、實現方法和技術現狀的詳細闡述。可作為高等院校計算機、資訊科技等相關專業的高年級本科生或研究生的教材或參考書,也可供從事自然語言處理、資料探勘和人工智慧等研究的相關人員參考。

進階篇

主要目標:近年來,深度學習的演算法和模型在自然語言處理的主要任務(例如機器翻譯、自動問答、機器閱讀、文字摘要、文字生成等)上取得了很好的效果。雖然現在對深度學習的模型和傳統模型的優劣尚不能定論(根據不同的任務、應用場景和需求以及資料規模可能有不同的結論,實際系統中更多時候也是共存互補),但這個方向目前成為學術界和工業界關注和投入的重點方向,實際的自然語言應用系統中也都或多或少、或直接或間接用到深度學習的技術,值得大家關注。

Neural Network Methods in Natural Language Processing (Synthesis Lectures on Human Language Technologies)
作者:Yoav Goldberg
適合人群:初級到中級學者
推薦指數:★★★★★

圖片描述

主要內容:本書著重介紹神經網路模型在自然語言資料中的應用。本書的前半部分介紹了有監督的機器學習和前饋神經網路的基礎知識,基於語言資料的機器學習的基礎知識。它還涵蓋了可以定義和訓練任意神經網路的計算圖形抽象方面的知識,是當代神經網路軟體庫設計的基礎。本書的第二部分介紹了更多專門的神經網路體系結構,包括一維卷積神經網路、遞迴神經網路、條件生成模型和基於注意力的模型。這些體系結構和技術是機器翻譯、句法分析和許多其他應用程式的最先進演算法的推動力量。最後,本書還討論了樹形網路,結構化預測和多工學習的前景。

推薦理由:大家都知道最近幾年由於深度學習的興起,使得影象識別、語音識別等多個方面都發生了很大的變革。深度學習在自然語言處理方面也是非常普遍了,一些經典的自然語言模式也都是基於神經網路的,這本書是目前市面上唯一一本介紹神經網路在自然語言處理的應用,是最新、最前沿的東西,而且書中的大量參考文獻非常有價值。本書的作者在這個領域非常知名,並且對待學術態度極其嚴謹。深入淺出,值得對深度學習在自然語言處理中應用感興趣的同學系統地讀一讀。

CS224d: Deep Learning for Natural Language Processing
課程導師:Richard Socher
適合人群:初級到中級學者
課程連結:
http://cs224d.stanford.edu/syllabus.html
推薦指數:★★★★★

主要內容:斯坦福大學自然語言小組的基於深度學習的自然語言處理的課程。介紹了自然語言處理領域廣泛應用的網路結構(例如迴圈神經網路、卷積神經網路以及遞迴神經網路等)及其在自然語言處理的經典任務,例如分類任務(情感分類),序列標註任務(實體識別),序列到序列的生成任務(機器翻譯)的實際應用。

推薦理由:自然語言處理是資訊時代最重要的技術之一。理解複雜的語言也是人工智慧的重要組成部分。自然語言處理的應用無處不在,因為人們用語言溝通了大部分內容:網路搜尋、廣告、電子郵件、客戶服務、語言翻譯、放射學報告等等。本課程比較適合對這個領域感興趣的初學者。

主要內容:DeepMind團隊成員在牛津大學教授基於深度學習的自然語言處理的課程。內容涉及到詞嵌入,基於迴圈神經網路的語言模型,基於迴圈神經網路和卷積神經網路的文字分類,基於迴圈神經網路的條件語言模型(廣泛應用於機器翻譯、文字摘要等)及其中的注意力機制,以及基於深度學習模型的自動問答等主要自然語言處理的任務。

推薦理由:深度學習方法在一套自然語言處理問題上達到了最先進的效果,這是英國牛津大學教授的一門關於自然語言處理深度學習的課程,本課程的大部分材料都可以線上免費獲取。比較適合對這個領域有一定的基礎,希望瞭解最新進展和進一步學習和研究的同學。

好,讀到這裡的同學,我可以很負責任地告訴你,你已經是個NLP界的老司機了!

希望韋福如博士推薦的書單能夠對想進入自然語言處理領域卻有些迷茫、無從入手的小夥伴們有所幫助,也希望這些小可愛們將來能在這個領域發光發熱!

也歡迎大家在下方留言區留言,分享你的NLP書單。

圖片描述