分詞的原理和認識以及工具的使用

阿新 • • 發佈：2018-11-09

概念：中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

字元匹配：

正向最大匹配
逆向最大匹配
最少切分（使每句話中切分的詞最少）
雙向最大匹配

逆向匹配的切分精度略高於正向匹配，遇見歧義的現象也比較少。

基本原理是，將字串與字典中的內容進行匹配，找到匹配的長度最大的詞語，就將它分割成一個詞語。由於中文比較複雜，各種語境下的分詞可能有些不同。所以一般在實現過程中，需要對掃描方式進行進一步的優化。

理解法：

讓計算機模擬人類的思考方式去分析文章的內容。

統計法：

通過對大量文章內容進行統計，然後將相鄰排列重複次數超過一定範圍的字的組合劃分為一個詞，常常出現“新詞”，以及耗時較大，誤差也比較大。

技術難點：

歧義詞：

交集型歧義：可以對詞有多種劃分，需要人的知識和經驗協助劃分的內容

組合型歧義：在不同句子中，有的為詞而在另一個語境中卻不為一個詞。

新詞：在未被分詞詞典收錄而又確實是一個詞的詞語，人名、機構名、商標名等詞。

結巴分詞的安裝和使用

功能：

支援三種分詞模式：
- 精確模式，試圖將句子最精確地切開，適合文字分析；
- 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
- 搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。
支援繁體分詞
支援自定義詞典
MIT 授權協議

安裝：

pip3 install jieba

使用：

引用：

import  jieba

方法：

待分詞字串編碼集：unicode UTF-8 GBK(易產生錯誤，被解碼成UTF-8)

預設為精確模式

Jieba.cut(被分詞字串,是否採用全模式,是否使用HMM模型)

返回可迭代的生成器

Jieba.cut_for_search(需要分詞的字串,是否使用HMM模型)，

返回可迭代的生成器，該方法粒度比較細

Jieba.lcut返回陣列

Jieba.lcut_for_search返回陣列

Jieba.Tokenizer(dictionary = DEFAULT_DICT)

新建自定義分詞器，用於不同的字典【jieba.dt為預設分詞器】

HMM模型

非常優秀的大佬的一篇文章：https://www.cnblogs.com/skyme/p/4651331.html

分詞的原理和認識以及工具的使用

概念：中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。字元匹配：正向最大匹配

中文分詞原理和實現

三大主流分詞方法：基於詞典的方法、基於規則的方法和基於統計的方法。 1、基於規則或詞典的方法定義：按照一定策略將待分析的漢字串與一個“大機器詞典”中的詞條進行匹配，若在詞典中找到某個字串，則匹配成功。按照掃描方向的不同：正向匹配和逆向匹配

自然語言處理——中文分詞原理及分詞工具介紹

本文首先介紹下中文分詞的基本原理，然後介紹下國內比較流行的中文分詞工具，如jieba、SnowNLP、THULAC、NLPIR，上述分詞工具都已經在github上開源，後續也會附上github連結，以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述中文分詞(Chinese Word Seg

ElasticSearch中分詞器以及分詞原理：聽課筆記（38講-45講）

第38講第39講第40講第41講分詞器：拆分詞語，做normalization（時態轉換，單複數轉換，同義詞，大小寫的轉換）預設情況下是standard狀態，分詞的時候會將連詞and ，介詞a the an等詞幹掉第42講

三叉搜尋樹（Ternary Search Trie）和中文分詞原理分析

三叉搜尋樹（Ternary Search Trie）三叉搜尋樹是二叉搜尋樹和數字搜尋樹的混合體。它有和數字搜尋樹差不多的速度但是隻需要和二叉搜尋樹一樣相對較少的記憶體空間。在一個三叉搜尋樹中，每一個節點包含一個字元，和數字搜尋樹不同，三叉搜尋樹只有三個指標：一個指向左邊

自然語言處理入門（4）——中文分詞原理及分詞工具介紹

本文首先介紹下中文分詞的基本原理，然後介紹下國內比較流行的中文分詞工具，如jieba、SnowNLP、THULAC、NLPIR，上述分詞工具都已經在github上開源，後續也會附上github連結，以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述中

資料庫分詞查詢的優缺點以及英文和中文各自的分詞方法（一）

1.為什麼需要資料庫分詞查詢假設有一個數據庫表，表中有一個title欄位 table1 假如有300萬的資料 id為主鍵，title也設定了索引 id title 1 這是計算機，

scws中文分詞安裝和使用

pre tex gbk 文件 log with default pat lib 一、下載源碼 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 tar xvjf scws-1.2.3.tar.bz2

ansj分詞原理

ansj第一步會進行原子切分和全切分，並且是在同時進行的。所謂原子,是指短句中不可分割的最小語素單位。例如，一個漢字就是一個原子。全切分，就是把一句話中的所有詞都找出來，只要是字典中有的就找出來。例如，“提高中國人生活水平”包含的詞有：提高、高中、中國、國人、人生、生活、活水、水平

NLP之jieba分詞原理簡析

一、jieba介紹 jieba庫是一個簡單實用的中文自然語言處理分詞庫。 jieba分詞屬於概率語言模型分詞。概率語言模型分詞的任務是：在全切分所得的所有結果中求某個切分方案S，使得P(S)最大。 jieba支援三種分詞模式：全模式，把句子中所有的可以成詞的詞語都掃描出來,

中文分詞 jieba和HanLP

安裝python包： pip install nltk pip install jieba pip install pyhanlp pip install gensim 使用jieba進行分詞 import jieba content = "現如今，機器學習和深度學習帶動人工智

solr與ik中文分詞的配置，以及新增Core（Add Core）的方式

在下用的版本是solr7.2.1與ikanalyzer-solr6.5：說明：在solr版本5之後就可以不用依賴tomcat進行啟動，可以自行啟動，啟動方式下面會進行講解。需要注意的是：對於solr6以下的版本可用jdk7，從solr6開始只能使用jdk8了。 so

自然語言處理入門----中文分詞原理

1.中文分詞原理介紹 1.1 中文分詞概述中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。 1.2 中文分詞方法介紹現有的分詞方法可分為三大類：基於字串匹配的分

ElasticSearch學習筆記（二）IK分詞器和拼音分詞器的安裝

ElasticSearch是自帶分詞器的，但是自帶的分詞器一般就只能對英文分詞，對英文的分詞只要識別空格就好了，還是很好做的（ES的這個分詞器和Lucene的分詞器很想，是不是直接使用Lucene的就不知道），自帶的分詞器對於中文就只能分成一個字一個字，這個顯然

Elasticsearch-IK分詞器詳解以及原始碼修改實現mysql熱更新

IK分詞器的安裝和使用訪問ik分詞器github專案地址：https://github.com/medcl/elasticsearch-analysis-ik 1.在本地clone專案程式碼，git clone https://github.com/me

Elasticsearch5.6.11+Ik分詞器和自定義詞庫的配置與使用

1、Ik分詞器下載在https://github.com/medcl/elasticsearch-analysis-ik中下載對應版本的IK分詞器elasticsearch-analysis-ik-5.6.11.zip。 2、Ik分詞器配置在elasticsearch-5.6.11根

Solr6.5配置中文分詞IKAnalyzer和拼音分詞pinyinAnalyzer (二)

之前在 Solr6.5在Centos6上的安裝與配置 (一) 一文中介紹了solr6.5的安裝。這篇文章主要介紹建立Solr的Core並配置中文IKAnalyzer分詞和拼音檢索。一、建立Core： 1、首先在solrhome（solrhome的路徑和配置見Solr6.5在Centos6上的安裝與配置

ElasticSearch簡單搜尋程式+分詞(中文和拼音)

es的注意事項：不能用root使用者啟動。如果是虛擬機器啟動使用，在安裝5.0版本以上，需要修改一些引數。 es使用者需要對es資料夾有許可權。

中文分詞原理及jieba分詞

本文首先介紹下中文分詞的基本原理，然後介紹下國內比較流行的中文分詞工具，如jieba、SnowNLP、THULAC、NLPIR，上述分詞工具都已經在github上開源，後續也會附上github連結，以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述中文分詞(Chines

條件隨機場(4)——CRF++分詞訓練和預測

這是CRF的最後一篇總結。這篇總結是訓練分詞模型和預測。CRF、最大熵、隱馬爾科夫模型貌似都可以做分詞、詞性標註、命名實體識別，以前只是在hanLP裡面用這些工具，實際上是不明所以的。現在要開始弄明白其中原理，並自己訓練模型了。好吧，又囉嗦了。先說一說CRF

分詞的原理和認識以及工具的使用

字元匹配：

理解法：

統計法：

技術難點：

功能：

HMM模型

相關推薦