jieba.NET是jieba中文分詞的.NET版本（C#實現）。

阿新 • • 發佈：2019-02-08

當前版本為0.38.2，基於jieba 0.38，提供與jieba一致的功能與介面，以後可能會在jieba基礎上提供其它擴充套件功能。關於jieba的實現思路，可以看看這篇wiki裡提到的資料。

如果您在開發中遇到與分詞有關的需求或困難，請提交一個Issue，I see u:)

特點

支援三種分詞模式：
- 精確模式，試圖將句子最精確地切開，適合文字分析；
- 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義。具體來說，分詞過程不會藉助於詞頻查詢最大概率路徑，亦不會使用HMM；
- 搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞
  
  。
支援繁體分詞
支援新增自定義詞典和自定義詞
MIT 授權協議

演算法

基於字首詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG)
採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合
對於未登入詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法

安裝和配置

當前版本基於.NET Framework 4.5，可以手動引用專案，也可以通過NuGet新增引用：

PM> Install-Package jieba.NET

安裝之後，在packages\jieba.NET目錄下可以看到Resources目錄，這裡面是jieba.NET執行所需的詞典及其它資料檔案，最簡單的配置方法是將整個Resources目錄拷貝到程式集所在目錄，這樣jieba.NET會使用內建的預設配置值。如果希望將這些檔案放在其它位置，則要在app.config或web.config中新增如下的配置項：

<appSettings>
    <add key="JiebaConfigFileDir" value="C:\jiebanet\config" />
</appSettings>

需要注意的是，這個路徑可以使用絕對路徑或相對路徑。如果使用相對路徑，那麼jieba.NET會假設該路徑是相對於當前應用程式域的BaseDirectory。

配置示例：

採用絕對路徑時，比如配置項為C:\jiebanet\config，那麼主詞典的路徑會拼接為：C:\jiebanet\config\dict.txt。
採用相對路徑時（或未新增任何配置項，那麼將會使用預設的相對路徑：Resources

），比如配置項為..\config（可通過..來調整相對路徑），若當前應用程式域的BaseDirectory是C:\myapp\bin\，那麼主詞典的路徑會拼接為：C:\myapp\config\dict.txt。

主要功能

1. 分詞

JiebaSegmenter.Cut方法接受三個輸入引數，text為待分詞的字串；cutAll指定是否採用全模式；hmm指定使用是否使用hmm模型切分未登入詞；返回型別為IEnumerable<string>
JiebaSegmenter.CutForSearch方法接受兩個輸入引數，text為待分詞的字串；hmm指定使用是否使用hmm模型；返回型別為IEnumerable<string>

程式碼示例

var segmenter = new JiebaSegmenter();
var segments = segmenter.Cut("我來到北京清華大學", cutAll: true);
Console.WriteLine("【全模式】：{0}", string.Join("/ ", segments));

segments = segmenter.Cut("我來到北京清華大學");  // 預設為精確模式
Console.WriteLine("【精確模式】：{0}", string.Join("/ ", segments));

segments = segmenter.Cut("他來到了網易杭研大廈");  // 預設為精確模式，同時也使用HMM模型
Console.WriteLine("【新詞識別】：{0}", string.Join("/ ", segments));

segments = segmenter.CutForSearch("小明碩士畢業於中國科學院計算所，後在日本京都大學深造"); // 搜尋引擎模式
Console.WriteLine("【搜尋引擎模式】：{0}", string.Join("/ ", segments));

segments = segmenter.Cut("結過婚的和尚未結過婚的");
Console.WriteLine("【歧義消除】：{0}", string.Join("/ ", segments));

輸出

【全模式】：我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學
【精確模式】：我/ 來到/ 北京/ 清華大學
【新詞識別】：他/ 來到/ 了/ 網易/ 杭研/ 大廈
【搜尋引擎模式】：小明/ 碩士/ 畢業/ 於/ 中國/ 科學/ 學院/ 科學院/ 中國科學院/ 計算/ 計算所/ ，/ 後/ 在/ 日本/ 京都/ 大學/ 日本京都大學/ 深造
【歧義消除】：結過婚/ 的/ 和/ 尚未/ 結過婚/ 的

2. 新增自定義詞典

載入詞典

開發者可以指定自定義的詞典，以便包含jieba詞庫裡沒有的詞。雖然jieba有新詞識別能力，但是自行新增新詞可以保證更高的正確率
JiebaSegmenter.LoadUserDict("user_dict_file_path")
詞典格式與主詞典格式相同，即一行包含：詞、詞頻（可省略）、詞性（可省略），用空格隔開
詞頻省略時，分詞器將使用自動計算出的詞頻保證該詞被分出

如

創新辦 3 i
雲端計算 5
凱特琳 nz
臺中
機器學習 3

調整詞典

使用JiebaSegmenter.AddWord(word, freq=0, tag=null)可新增一個新詞，或調整已知詞的詞頻；若freq不是正整數，則使用自動計算出的詞頻，計算出的詞頻可保證該詞被分出來
使用JiebaSegmenter.DeleteWord(word)可移除一個詞，使其不能被分出來

3. 關鍵詞提取

基於TF-IDF演算法的關鍵詞提取

JiebaNet.Analyser.TfidfExtractor.ExtractTags(string text, int count = 20, IEnumerable<string> allowPos = null)可從指定文字中抽取出關鍵詞。
JiebaNet.Analyser.TfidfExtractor.ExtractTagsWithWeight(string text, int count = 20, IEnumerable<string> allowPos = null)可從指定文字中抽取關鍵詞的同時得到其權重。
關鍵詞抽取基於逆向檔案頻率（IDF），元件內建一個IDF語料庫，可以配置為其它自定義的語料庫。
關鍵詞抽取會過濾停用詞（Stop Words），元件內建一個停用詞語料庫，這個語料庫合併了NLTK的英文停用詞和哈工大的中文停用詞。

基於TextRank演算法的關鍵詞抽取

JiebaNet.Analyser.TextRankExtractor與TfidfExtractor相同的介面。需要注意的是，TextRankExtractor預設情況下只提取名詞和動詞。
以固定視窗大小（預設為5，通過Span屬性調整）和詞之間的共現關係構建圖

4. 詞性標註

JiebaNet.Segmenter.PosSeg.PosSegmenter類可以在分詞的同時，為每個詞新增詞性標註。
詞性標註採用和ictclas相容的標記法，關於ictclas和jieba中使用的標記法列表，請參考：詞性標記。

var posSeg = new PosSegmenter();
var s = "一團碩大無朋的高能離子云，在遙遠而神祕的太空中迅疾地飄移";

var tokens = posSeg.Cut(s);
Console.WriteLine(string.Join(" ", tokens.Select(token => string.Format("{0}/{1}", token.Word, token.Flag))));

一團/m 碩大無朋/i 的/uj 高能/n 離子/n 雲/ns ，/x 在/p 遙遠/a 而/c 神祕/a 的/uj 太空/n 中/f 迅疾/z 地/uv 飄移/v

5. Tokenize：返回詞語在原文的起止位置

預設模式

var segmenter = new JiebaSegmenter();
var s = "永和服裝飾品有限公司";
var tokens = segmenter.Tokenize(s);
foreach (var token in tokens)
{
    Console.WriteLine("word {0,-12} start: {1,-3} end: {2,-3}", token.Word, token.StartIndex, token.EndIndex);
}

word 永和           start: 0   end: 2
word 服裝           start: 2   end: 4
word 飾品           start: 4   end: 6
word 有限公司         start: 6   end: 10

搜尋模式

var segmenter = new JiebaSegmenter();
var s = "永和服裝飾品有限公司";
var tokens = segmenter.Tokenize(s, TokenizerMode.Search);
foreach (var token in tokens)
{
    Console.WriteLine("word {0,-12} start: {1,-3} end: {2,-3}", token.Word, token.StartIndex, token.EndIndex);
}

word 永和           start: 0   end: 2
word 服裝           start: 2   end: 4
word 飾品           start: 4   end: 6
word 有限           start: 6   end: 8
word 公司           start: 8   end: 10
word 有限公司         start: 6   end: 10

6. 並行分詞（暫未實現）

7. 與Lucene.NET的整合

jiebaForLuceneNet專案提供了與Lucene.NET的簡單整合，更多資訊請看：jiebaForLuceneNet

8. 其它詞典

jieba分詞亦提供了其它的詞典檔案：

9. 分詞速度

全模式：2.5 MB/s
精確模式：1.1 MB/s
測試環境： Intel(R) Core(TM) i3-2120 CPU @ 3.30GHz；圍城.txt（734KB）

10. 命令列分詞

Segmenter.Cli專案build之後得到jiebanet.ext，它的選項和例項用法如下：

-f       --file          the file name, (必要的).
-d       --delimiter     the delimiter between tokens, default: / .
-a       --cut-all       use cut_all mode.
-n       --no-hmm        don't use HMM.
-p       --pos           enable POS tagging.
-v       --version       show version info.
-h       --help          show help details.

sample usages:
$ jiebanet -f input.txt > output.txt
$ jiebanet -d | -f input.txt > output.txt
$ jiebanet -p -f input.txt > output.txt

https://github.com/anderscui/jieba.NET

jieba.NET是jieba中文分詞的.NET版本（C#實現）。

jieba.NET是jieba中文分詞的.NET版本（C#實現）。當前版本為0.38.2，基於jieba 0.38，提供與jieba一致的功能與介面，以後可能會在jieba基礎上提供其它擴充套件功能。關於jieba的實現思路，可以看看這篇wiki裡提到的資料。如果

中文分詞系統NLPIR（2015版）的Java介面使用學習

前言：這幾天資料探勘的大作業又用到分詞了，首先想到的肯定是中科院的分詞系統NLPIR，但是之前用的事2013版的，2015版的有了新的變化。增加了函式和效率自是不必說，由於我是用的j

阿拉伯數字轉中文數字方法詳解（C++實現）

阿拉伯數字與中文數字沒有一一對應關係，不存在直接轉換的公式化演算法，因此需要根據兩種數字體系的特點精心構造轉換演算法。中文計數有一個特點，就是“零”的使用變化多端。阿拉伯數字中數字的權位依靠數字在整個數字長度中的偏移位置確定，因此數字中間出現的0用於標記數字的偏移位置，即便是連續出現的0也不能省略。中文計

中文數字轉阿拉伯數字（C++實現）

中文數字的權位是明的，阿拉伯數字的權位則隱含在數字的位置中。比如中文數字“一萬”，對應的阿拉伯數字是10000，如何確定補多少個 0 才能將 1 頂在正確的位置上？這正是中文數字轉換成阿拉伯數字的關鍵，如何將明的權位轉換成數字的位置。轉換的基本方法對於十進位制阿拉伯數字，數字的所在位數就是該數字與10的

python中使用jieba進行中文分詞

原始碼下載的地址：https://github.com/fxsjy/jieba演示地址：http://jiebademo.ap01.aws.af.cm/ 一 “結巴”中文分詞：做最好的 Python 中文分片語件。支援三種分詞模式：精確模式，試圖將句子最精確地切開，適

【python 走進NLP】利用jieba技術中文分詞並寫入txt

簡單介紹：近年來，隨著NLP自然語言處理技術的日益成熟，開源實現的分詞工具也越來越多，比如NLTK：其在英文分詞較為成熟，分詞效果較好，在處理中文分詞方面則顯得力不足；在處理中文分詞時，Jieba這一工具普遍為大家所接受，很多企業也都是利用這一工具來處理涉及中

深度解析中文分詞器演算法（最大正向/逆向匹配）

中文分詞演算法概述： 1：非基於詞典的分詞（nlp語義領域）相當於人工智慧領域計算。一般用於機器學習，特定領域等方法，這種在特定領域的分詞可以讓計算機在現有的規則模型中，推理如何分詞。在某個領域（垂直領域）分詞精度較高。但是實現比較複雜。 2：基於詞典的分

[python] 使用Jieba工具中文分詞及文字聚類概念

一. Selenium爬取百度百科摘要簡單給出Selenium爬取百度百科5A級景區的程式碼： # coding=utf-8 """ Created on 2015-12-10 @author: Eastmount """ impo

Py之jieba：Python包之jieba包——中文分詞最好的元件

jieba簡介應該算得上是分詞領域的佼佼者，想要使用python做文字分析，分詞是必不可少的一個環節。 (1)支援三種分詞模式：　　(1)精確模式：試圖將句子最精確的切開，適合文字分析。　　(

基於規則的中文分詞 - NLP學習（中文篇）

維護查找 ont mage 不能 python代碼全部連接只需要之前在其他博客文章有提到如何對英文進行分詞，也說後續會增加解釋我們中文是如何分詞的，我們都知道英文或者其他國家或者地區一些語言文字是詞與詞之間有空格（分隔符），這樣子分詞處理起來其實是要相對容易很多，

Elasticsearch安裝中文分詞外掛ik（ES 2.3.3 & IK 1.9.3）

最近用到elasticsearch做全文檢索知識庫系統，系統已經大致開發完成，需要中文分詞，故網上搜索了下配置方法，可嘗試幾個都不可用，然後就看IK的git原始碼中有介紹，試了下，相比其他方法簡單很

在C++中呼叫Jieba進行中文分詞

背景之前有個小專案用到了中文分詞，但當時使用的ICTCLAS需要每個月下載證書，很不方便。後來在網上找到了一個開源的python實現的中文分詞器Jieba，可以使用pip直接安裝本地。但之前的專案是c++實現的，所以需要考慮跨語言的呼叫問題。 Python

利用jieba進行中文分詞並進行詞頻統計

1.安裝jieba庫在windows的Anaconda環境下如果沒有設定環境變數，則從Dos命令先進入...\Anaconda3\Scripts 目錄中，然後執行以下命令即可： pip install jieba 2.分詞示例我們先用一段文字來進

[Python] 基於 jieba 的中文分詞總結

[TOC] ## 模組安裝 ``` pip install jieba ``` jieba分詞器支援4種分詞模式: 1. 精確模式該模式會試圖將句子最精確地切分開，適合在文字分析時使用。 2. 全模式該模式會將句子中所有可以成詞的詞語都掃描出來，速度也非常快，缺點是不能解決歧義問題，有歧義的詞語也會被掃描出來

單峰問題分治法演算法（C++實現）

給定含有n個不同的陣列成的陣列L=<x1,x2,x3,…，xn>，如果L中存在xi使得,則稱x1<x2 <…<xi-1<xi且xi>xi+1>…>xn則稱L是單峰的，並稱xi是L的峰頂。假設L是單峰的，設計演

分治法之合併排序（C實現）

#include <stdio.h> void merge(int a[],int p,int q,int r) { int n1=q-p+1,n2=r-q; int

演算法設計--蠻力法&&分治法求最近對問題（C++實現）

最近對問題？設p1=(x1,y1), p2(x2,y2), ....,pn=(xn,yn)是平面上n個點構成的集合S，最近對問題就是找出集合S中距離最近的點對。兩種演算法思想： 1. 蠻力法：顧名思義，利用正常的思維，使用強硬的方式求解出結果。 2. 分治法：分治，分而

設計模式——抽象工廠模式（C++實現）

concrete out png return style bsp ctp img using 1 #include <iostream> 2 #include <string> 3 4 usin

設計模式——觀察者模式（C++實現）

ace mes des ret rtu cto pattern virt date 1 #include <iostream> 2 #include <vector> 3 #include <algorithm>

設計模式——命令模式（C++實現）

clear cto ive pre urn bak std oot style 1 [root@ ~/learn_code/design_pattern/19_order]$ cat order.cpp 2 #include <

jieba.NET是jieba中文分詞的.NET版本（C#實現）。

特點

演算法

安裝和配置

主要功能

1. 分詞

2. 新增自定義詞典

載入詞典

調整詞典

3. 關鍵詞提取

基於TF-IDF演算法的關鍵詞提取

基於TextRank演算法的關鍵詞抽取

4. 詞性標註

5. Tokenize：返回詞語在原文的起止位置

6. 並行分詞（暫未實現）

7. 與Lucene.NET的整合

8. 其它詞典

9. 分詞速度

10. 命令列分詞

相關推薦