【NLP漢語自然語言處理與實踐】分詞_筆記

阿新 • • 發佈：2018-10-05

統計 The 計算分詞其余雙向 name -c max

一、兩種分詞標準：

1. 粗粒度。

將詞作為最小基本單位。比如：浙江大學。
主要用於自然語言處理的各種應用。

2. 細粒度。

不僅對詞匯繼續切分，也對詞匯內部的語素進行切分。比如：浙江/大學。
主要用於搜索引擎。一種常用方案是：
- 索引的時候使用細粒度的分詞以保證召回，比如浙江/大學
- 詢的時候使用粗粒度的分詞以保證精度

二、歧義

1.分類：

交集型切分歧義。對於AJB，AJ和JB都成詞
組合型切分歧義。對於AB，A、B、AB都成詞
多義組合型切分歧義。對於AB，（1）A、B、AB同時為詞；（2）文本中至少存在一個上下文語境c，在c的約束下，A、B在語法和語義上都成立
PS：語法與語義
- 語法：語言符號之間的關系
- 語義：語言符號與所指事物之間的關系

2. 解決方法（分詞算法）

機械分詞系統
- 基於最大匹配方法MM（The Maximum Matching Method）
  - 設詞典中的最長詞條為L，每次先取L個詞嘗試匹配，若失敗，就去掉最後一個字，取前L-1個詞嘗試匹配，以此類推
- 雙向匹配法
  - MM的改進算法，分為正向最佳匹配法和逆向最佳匹配法
  - 兩個方向得到的結果必然不同
  - 缺陷：只能正向或逆向得找出最長的詞，而不能找出所有的候選詞條
- 雙向掃描法
  - 以上的改進算法，能更快速的檢測出歧義產生的位置
- 整體缺點：沒有考慮詞匯上下文相關性，分詞準確度不高
機械分詞系統揭示了一個語言規律：
- 一個詞匯的出現與其上下文環境中出現的詞匯序列存在著緊密的聯系
- 上下文相關性：
  - 文本中第n個詞的出現與其前後n-m和n+m個詞有高度相關性，這個範圍[-m,m]稱為窗口範圍

三、未登錄詞識別（Named Entity Recognition, NER)

未登錄詞中，九成是專有名詞，其余為通用新詞或專業術語。所以未登錄詞識別就是包括中國人名、譯名、日本人名、地理位置名稱、組織機構等專有名詞的識別。
在NLP中，通常將上述專有名詞和數字、日期等詞稱為命名實體。
算法
- 基於構詞編碼的方法
  - 缺點：只適用於狹窄的專門領域等，在處理大規模不同領域的未登錄詞上存在很大的障礙
- 基於語義的方法
  - 認為：不同語義類下的未登錄詞，在統計學規律上具有相似性。
  - 算法：基於半監督的條件隨機場算法（semi-CRF）

【NLP漢語自然語言處理與實踐】分詞_筆記

統計 The 計算分詞其余雙向 name -c max 一、兩種分詞標準： 1. 粗粒度。將詞作為最小基本單位。比如：浙江大學。主要用於自然語言處理的各種應用。 2. 細粒度。不僅對詞匯繼續切分，也對詞匯內部的語素進行切分。比如：浙江/大學。主要用於搜索

《NLP漢語自然語言處理原理與實踐》結構圖

自然語言處理後續博客會根據上面的圖結合一些其他資料更新自然語言處理的朋友多多交流《NLP漢語自然語言處理原理與實踐》結構圖

《NLP漢語自然語言處理原理與實踐》第四章 NLP中的概率圖模型

目前最流行的演算法思想包含如下兩大流派：基於概率論和圖論的概率圖模型；基於人工神經網路的深度學習理論。 4.1概率論迴歸 4.1.1 多元概率論的幾個基本概念 4.1.2 貝葉斯與樸素貝葉斯演算法

《NLP漢語自然語言處理原理與實踐》第三章詞彙與分詞技術

中文分詞的研究經歷了二十多年，基本上可以分為如下三個流派。 1.機械式分詞法(基於字典)。機械分詞的原理是將文件中的字串與詞典中的詞條進行逐一匹配，如果詞典中找到某個字串，則匹配成功，可以切分，否則不予切分。基於詞典的機械分詞法，實現簡單、實用性強，但機械分詞法的最大的缺點是詞典的完備

分享《NLP漢語自然語言處理原理與實踐(鄭捷著)》PDF+原始碼

下載：https://pan.baidu.com/s/18l_exnf_sX4B1f9MMWUqFQ 更多資料：https://pan.baidu.com/s/1g4hv05UZ_w92uh9NNNkCaA 《NLP漢語自然語言處理原理與實踐(鄭捷著)》PDF+原始碼 PDF，547頁，帶書籤目錄。

NLP漢語自然語言處理原理與實踐 5 詞性、語塊和命名實體識別

NLP中很多問題要求解的輸出標籤不是相互獨立的，而是時間或結構上相互依存的結構化標籤。這種結構包括序列、樹狀或更普通意義上的圖結構。而對於中文分詞、詞性標註、組塊標註、淺層語法分析等任務，標記和切分觀察序列都是序列結構的。解決詞類方法最常用的模型也是概率圖模

《NLP漢語自然語言處理原理與實踐》第一章

一.基本知識規則派還是統計派： 1.規則派：以語言學理論為基礎，根據語言學家對語言現象的認識，採用規則形式描述或解釋歧義行為或歧義特性。規則派首先要對大量的語言現象進行研究，歸納出一系列的語言規則。然後再形成一套複雜的規則集----語言分析或生產系統，對自然語言進行分析處

《NLP漢語自然語言處理原理與實踐》第三章詞彙與分詞技術

中文分詞的研究經歷了二十多年，基本上可以分為如下三個流派。 1.機械式分詞法(基於字典)。機械分詞的原理是將文件中的字串與詞典中的詞條進行逐一匹配，如果詞典中找到某個字串，則匹配成功，可以切分，否則

NLP漢語自然語言處理原理與實踐 9 NLP中的深度學習

9.2 Word2Vec簡介 http://004123.ichengyun.net/thread-1598-1-1.html 下載word2vec原始碼使用MSR分詞語料庫http://www.threedweb.cn/thread-15

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第三課詞向量（2）

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第二課詞向量（word vector）

課程概要 1、單詞含義 2、word2vec介紹 3、word2vec目標函式的梯度推導 4、目標函式優化：梯度下降法一、單詞含義含義（meaning）指的是由單詞表達的觀點。我們一般使用單詞含義的方法是，使用像WordNet那樣的分類詞典，給每個單詞對應的上下義關係以及同義

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第八課迴圈神經網路

課程概要 1、傳統語言模型 2、迴圈神經網路 3、例項（python） 4、RNN處理的一些技巧 5、針對其他任務的序列模型 6、總結一、傳統語言模型語言模型可以計算一些系列的單詞的概率P（w1，…,wT) 可以用來進行機器翻譯單詞順序：p(the

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第十課神經機器翻譯（neural machine translation）與attention模型

本課概要 1、機器翻譯（MT） 2、帶attention的序列模型 3、序列模型解碼器（decoder）一、機器翻譯（MT）機器翻譯是一個十分經典的語言理解的測試，涉及語言分析（language analysis）與語言生成（language generat

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第六課依存句法分析

課程概要 1、句法結構：成分句法、依存句法 2、依存語法 3、 Transition-based依存句法分析 4、神經網路的依存句法分析一、句法結構：成分句法、依存句法二、依存語法三、Transition-based依存句法分析四、神經網路的依存句

自然語言處理基礎技術之分詞實戰

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84453008 更多學習筆記關注：公眾號:StudyForAI 知乎專欄:https://www.zhihu.com/people/yuquanle/colum

自然語言處理基礎技術之分詞介紹

宣告：轉載請註明出處：https://blog.csdn.net/m0_37306360/article/details/84404130 更多學習筆記關注：公眾號:StudyForAI 知乎專欄:https://www.zhihu.com/people/yuquanle/columns

Python 自然語言處理（基於jieba分詞和NLTK）

----------歡迎加入學習交流QQ群：657341423 自然語言處理是人工智慧的類別之一。自然語言處理主要有那些功能？我們以百度AI為例從上述的例子可以看到，自然語言處理最基本的功能是詞法分析，詞法分析的功能主要有：分詞分句詞語標註詞法時態

統計自然語言處理梳理一：分詞、命名實體識別、詞性標註

進行統計自然語言處理系統梳理，學習資料《統計自然語言處理.宗成慶》。一、自動分詞詞，詞是最小的能夠獨立運用的語言單位。自動分詞問題由來。中文（還有日語、越南語、藏語等）的文字不像西方屈折語的文字，詞與詞之間沒有空格之類的標註來顯示

DeepLearning.ai筆記:(5-2) -- 自然語言處理與詞嵌入(NLP and Word Embeddings）

title: ‘DeepLearning.ai筆記:(5-2) – 自然語言處理與詞嵌入(NLP and Word Embeddings)’ id: dl-ai-5-2 tags: dl.ai categories: AI Deep Learning date:

DeepLearning.ai作業:(5-2) -- 自然語言處理與詞嵌入(NLP and Word Embeddings)

title: ‘DeepLearning.ai作業:(5-2) – 自然語言處理與詞嵌入(NLP and Word Embeddings)’ id: dl-ai-5-2h tags: dl.ai homework categories: AI Deep L

【NLP漢語自然語言處理與實踐】分詞_筆記

相關推薦