1. 程式人生 > >《Python自然語言處理實戰:核心技術與算法》PDF新書推介,附帶鏈接地址

《Python自然語言處理實戰:核心技術與算法》PDF新書推介,附帶鏈接地址

核心技術 正則表達 eba 詞性標註 6.2 排序 系統 ext 書籍

本書從各個方面著手,幫助讀者理解NLP的過程,提供了各種實戰場景,結合現實項目背景,幫助讀者理解NLP中的數據結構和算法以及目前主流的NLP技術與方法論,結合信息檢索技術與大數據應用等流行技術,終完成對NLP的學習和掌握。
  ——黃英 阿裏巴巴達摩院高級算法專家
  目前市面上的NLP書籍,要麽是針對研究人員的偏理論性的教科書,要麽是針對資深工程師進一步深入了解NLP技術的高級讀物。為了填補這一空白,三位來自工業界的資深NLP專家,結合真實的項目,讓讀者能夠以
快的速度掌握NLP技術的精髓。同時,穿插大量練習,可以幫助讀者反復練習課本中的知識點。所有這些內容,都是為了讓讀者能夠解決工作中遇到的實際問題,而不僅是紙上談兵。本書通俗易懂、操作性強。
   ——馮是聰博士 百煉智能創始人兼CEO/人工智能與信息檢索專家本書從各個方面著手,幫助讀者理解NLP的過程,提供了各種實戰場景,結合現實項目背景,幫助讀者理解NLP中的數據結構和算法以及目前主流的NLP技術與方法論,結合信息檢索技術與大數據應用等流行技術,終完成對NLP的學習和掌握。
  ——黃英 阿裏巴巴達摩院高級算法專家
  目前市面上的NLP書籍,要麽是針對研究人員的偏理論性的教科書,要麽是針對資深工程師進一步深入了解NLP技術的高級讀物。為了填補這一空白,三位來自工業界的資深NLP專家,結合真實的項目,讓讀者能夠以
快的速度掌握NLP技術的精髓。同時,穿插大量練習,可以幫助讀者反復練習課本中的知識點。所有這些內容,都是為了讓讀者能夠解決工作中遇到的實際問題,而不僅是紙上談兵。本書通俗易懂、操作性強。
   ——馮是聰博士 百煉智能創始人兼CEO/人工智能與信息檢索專家
  本書作者通過對現有的NLP技術以及新興的深度學習方法進行梳理和總結,形成了自己的NLP知識體系。本書在內容上平衡了理論和技術,在每章的理論之後都配備了實踐課,便於讀者通過動手加深理解,避免成為只會誇誇其談的NLP理論“專家”。本書可以幫助研究者,特別是初學者,加強對NLP的理論與技術的學習,授人以魚的同時授人以漁,幫助讀者靈活解決實際工作當中遇到的各種NLP問題。
  ——林亦寧七牛雲AI實驗室Leader/10余年人工智能和深度學習研究
  技術的發展和普及,離不開教育的推動,從商業智能到大數據,再到如今的人工智能,莫不是如此。華章是IT技術圖書出版領域的領軍者,天善智能是IT技術在線教育領域的佼佼者,我們都在為推動IT技術在中國甚至是世界範圍內的發展貢獻力量。華章與天善智能結成了非常重要的戰略合作夥伴關系,本書是雙方合作的*本書,後續還會有更多的作品出版,希望能對大家有所幫助。
  ——周劍 天善智能聯合創始人&咨詢總監

序一

序二
前言
第1章 NLP基礎 1
1.1 什麽是NLP 1
1.1.1 NLP的概念 1
1.1.2 NLP的研究任務 3
1.2 NLP的發展歷程 5
1.3 NLP相關知識的構成 7
1.3.1 基本術語 7
1.3.2 知識結構 9
1.4 語料庫 10
1.5 探討NLP的幾個層面 11
1.6 NLP與人工智能 13
1.7 本章小結 15
第2章 NLP前置技術解析 16
2.1 搭建Python開發環境 16
2.1.1 Python的科學計算發行版——Anaconda 17
2.1.2 Anaconda的下載與安裝 19
2.2 正則表達式在NLP的基本應用 21
2.2.1 匹配字符串 22
2.2.2 使用轉義符 26
2.2.3 抽取文本中的數字 26
2.3 Numpy使用詳解 27
2.3.1 創建數組 28
2.3.2 獲取Numpy中數組的維度 30
2.3.3 獲取本地數據 31
2.3.4 正確讀取數據 32
2.3.5 Numpy數組索引 32
2.3.6 切片 33
2.3.7 數組比較 33
2.3.8 替代值 34
2.3.9 數據類型轉換 36
2.3.10 Numpy的統計計算方法 36
2.4 本章小結 37
第3章 中文分詞技術 38
3.1 中文分詞簡介 38
3.2 規則分詞 39
3.2.1 正向最大匹配法 39
3.2.2 逆向最大匹配法 40
3.2.3 雙向最大匹配法 41
3.3 統計分詞 42
3.3.1 語言模型 43
3.3.2 HMM模型 44
3.3.3 其他統計分詞算法 52
3.4 混合分詞 52
3.5 中文分詞工具——Jieba 53
3.5.1 Jieba的三種分詞模式 54
3.5.2 實戰之高頻詞提取 55
3.6 本章小結 58
第4章 詞性標註與命名實體識別 59
4.1 詞性標註 59
4.1.1 詞性標註簡介 59
4.1.2 詞性標註規範 60
4.1.3 Jieba分詞中的詞性標註 61
4.2 命名實體識別 63
4.2.1 命名實體識別簡介 63
4.2.2 基於條件隨機場的命名實體識別 65
4.2.3 實戰一:日期識別 69
4.2.4 實戰二:地名識別 75
4.3 總結 84
第5章 關鍵詞提取算法 85
5.1 關鍵詞提取技術概述 85
5.2 關鍵詞提取算法TF/IDF算法 86
5.3 TextRank算法 88
5.4 LSA/LSI/LDA算法 91
5.4.1 LSA/LSI算法 93
5.4.2 LDA算法 94
5.5 實戰提取文本關鍵詞 95
5.6 本章小結 105
第6章 句法分析 106
6.1 句法分析概述 106
6.2 句法分析的數據集與評測方法 107
6.2.1 句法分析的數據集 108
6.2.2 句法分析的評測方法 109
6.3 句法分析的常用方法 109
6.3.1 基於PCFG的句法分析 110
6.3.2 基於最大間隔馬爾可夫網絡的句法分析 112
6.3.3 基於CRF的句法分析 113
6.3.4 基於移進–歸約的句法分析模型 113
6.4 使用Stanford Parser的PCFG算法進行句法分析 115
6.4.1 Stanford Parser 115
6.4.2 基於PCFG的中文句法分析實戰 116
6.5 本章小結 119
第7章 文本向量化 120
7.1 文本向量化概述 120
7.2 向量化算法word2vec 121
7.2.1 神經網絡語言模型 122
7.2.2 C&W模型 124
7.2.3 CBOW模型和Skip-gram模型 125
7.3 向量化算法doc2vec/str2vec 127
7.4 案例:將網頁文本向量化 129
7.4.1 詞向量的訓練 129
7.4.2 段落向量的訓練 133
7.4.3 利用word2vec和doc2vec計算網頁相似度 134
7.5 本章小結 139
第8章 情感分析技術 140
8.1 情感分析的應用 141
8.2 情感分析的基本方法 142
8.2.1 詞法分析 143
8.2.2 機器學習方法 144
8.2.3 混合分析 144
8.3 實戰電影評論情感分析 145
8.3.1 卷積神經網絡 146
8.3.2 循環神經網絡 147
8.3.3 長短時記憶網絡 148
8.3.4 載入數據 150
8.3.5 輔助函數 154
8.3.6 模型設置 155
8.3.7 調參配置 158
8.3.8 訓練過程 159
8.4 本章小結 159
第9章 NLP中用到的機器學習算法 160
9.1 簡介 160
9.1.1 機器學習訓練的要素 161
9.1.2 機器學習的組成部分 162
9.2 幾種常用的機器學習方法 166
9.2.1 文本分類 166
9.2.2 特征提取 168
9.2.3 標註 169
9.2.4 搜索與排序 170
9.2.5 推薦系統 170
9.2.6 序列學習 172
9.3 分類器方法 173
9.3.1 樸素貝葉斯Naive Bayesian 173
9.3.2 邏輯回歸 174
9.3.3 支持向量機 175
9.4 無監督學習的文本聚類 177
9.5 文本分類實戰:中文垃圾郵件分類 180
9.5.1 實現代碼 180
9.5.2 評價指標 187
9.6 文本聚類實戰:用K-means對豆瓣讀書數據聚類 190
9.7 本章小結 194
第10章 基於深度學習的NLP算法 195
10.1 深度學習概述 195
10.1.1 神經元模型 196
10.1.2 激活函數 197
10.1.3 感知機與多層網絡 198
10.2 神經網絡模型 201
10.3 多輸出層模型 203
10.4 反向傳播算法 204
10.5 最優化算法 208
10.5.1 梯度下降 208
10.5.2 隨機梯度下降 209
10.5.3 批量梯度下降 210
10.6 丟棄法 211
10.7 激活函數 211
10.7.1 tanh函數 212
10.7.2 ReLU函數 212
10.8 實現BP算法 213
10.9 詞嵌入算法 216
10.9.1 詞向量 217
10.9.2 word2vec簡介 217
10.9.3 詞向量模型 220
10.9.4 CBOW和Skip-gram模型 222
10.1

鏈接: https://pan.baidu.com/s/1SEyzjdL2OfMdLhZCAgtgdw 提取碼: i6sy

《Python自然語言處理實戰:核心技術與算法》PDF新書推介,附帶鏈接地址