利用jieba進行中文分詞並進行詞頻統計

阿新 • • 發佈：2019-02-16

1.安裝jieba庫

在windows的Anaconda環境下如果沒有設定環境變數，則從Dos命令先進入...\Anaconda3\Scripts 目錄中，然後執行以下命令即可：

pip install jieba

2.分詞示例

我們先用一段文字來進行分詞並做詞頻統計：

央視網訊息：當地時間11日，美國國會參議院以88票對11票的結果通過了一項動議，允許國會“在總統以國家安全為由決定徵收關稅時”發揮一定的限制作用。這項動議主要針對加徵鋼鋁關稅的232調查，目前尚不具有約束力。動議的主要發起者——共和黨參議員鮑勃·科克說，11日的投票只是一小步，他會繼續推動進行有約束力的投票。

可以看到，這段文本當中還包含了很多標點符號和數字，顯然這不是我們想要的，所以在分詞的時候要去掉這些。

2.1 普通分詞模式

import jieba
import re
cut_words=[]
for line in open('./text1.txt',encoding='utf-8'):
    line.strip('\n')
    line = re.sub("[A-Za-z0-9\：\·\—\，\。\“ \”]", "", line)
    seg_list=jieba.cut(line,cut_all=False)
    cut_words.append(" ".join 
(seg_list))
print(cut_words)


>> 結果

['央視網 訊息 當地 時間 日 美國國會參議院 以票 對票 的 結果 通過 了 
一項 動議 允許 國會 在 總統 以 國家 安全 為 由 決定 徵收 關稅 時 發揮 
一定 的 限制 作用 這項 動議 主要 針對 加徵 鋼鋁 關稅 的 調查 目前 尚 
不 具有 約束力 動議 的 主要 發起者 共和黨 參議員 鮑勃 科克 說 日 的 
投票 只是 一 小步 他會 繼續 推動 進行 有 約束力 的 投票']

2.1 全分詞模式

import jieba
import re
cut_words=[]
for 
 line in open('./text1.txt',encoding='utf-8'):
    line.strip('\n')
    line = re.sub("[A-Za-z0-9\：\·\—\，\。\“ \”]", "", line)
    seg_list=jieba.cut(line,cut_all=True)
    cut_words.append(" ".join(seg_list))
print(cut_words)

>> 結果

['央視 央視網 視網 訊息 當地 時間 日 美國 美國國會 美國國會參議院 國會 參議 
參議院 議院 以 票 對 票 的 結果 通過 了 一項 動議 允許 許國 國會 在 總統 以
 國家 家安 安全 為 由 決定 徵收 關稅 時 發揮 一定 的 限制 製作 作用 這項 
動議 的 主要 發起 發起者 共和 共和黨 黨蔘 參議 參議員 議員 鮑 勃 科克 說 
日 的 投票 只是 一小 小步 他 會 繼續 推動 進行 有 約束 約束力 的 投票']

3.詞頻統計

做詞頻統計需要用到另外一個包collection中的Counter計數器（如果沒有自行安裝，安裝方法同jieba一樣）。但是需要注意的是，像上面那樣分詞後的形式不能做詞頻統計，因為Counter是將list中的一個元素視為一個詞，所以在上面要略微修改。

import jieba
import re
from collections import Counter
cut_words=""
for line in open('./text1.txt',encoding='utf-8'):
    line.strip('\n')
    line = re.sub("[A-Za-z0-9\：\·\—\，\。\“ \”]", "", line)
    seg_list=jieba.cut(line,cut_all=False)
    cut_words+=(" ".join(seg_list))
all_words=cut_words.split()
print(all_words)
c=Counter()
for x in all_words:
    if len(x)>1 and x != '\r\n':
        c[x] += 1

print('\n詞頻統計結果：')
for (k,v) in c.most_common(2):# 輸出詞頻最高的前兩個詞
    print("%s:%d"%(k,v))


>> 結果

['央視網', '訊息', '當地', '時間', '日', '美國國會參議院', '以票', 
'對票', '的', '結果', '通過', '了', '一項', '動議', '允許', '國會',
 '在', '總統', '以', '國家', '安全', '為', '由', '決定', '徵收', 
 '主要', '針對', '加徵', '鋼鋁', '關稅', '的', '調查', '目前', '尚', 
 '參議員', '鮑勃', '科克', '說', '日', '的', '投票', '只是', '一', 
 '小步', '他會', '繼續', '推動', '進行', '有', '約束力', '的', '投票']

詞頻統計結果：
動議:3
關稅:2

4.新增自定義分詞規則

什麼叫新增自定義規則呢？比如下面這個詞：“南京市”。

import jieba
jieba.load_userdict('../data/user_cut_dic.txt')
str = "南京市"
r = jieba.cut(str,cut_all=False)
temp = ' '.join(r)
print(temp)

jieba預設會將它看成一個整體。明顯這也是大多數情況下我們期望的結果，但真的就不會有“南京”和“市”這種分詞方式嗎？

jieba提供了兩種方式來解決：

第一種：匯入使用者自定義的分詞樣例（就像是自定義停用詞一樣）的本地檔案；
比如在此處，我在../data/user_cut_dic.txt中添加了如下樣例：

南京 999999999

得到了如下結果：“南京市”，其中後面的數字是傾向於這種分詞的權重（比重），中間用一個空格隔開。

第二種：在程式碼中新增分詞建議；

import jieba
jieba.suggest_freq(('南京',"市"), True)
str = "南京市"
r = jieba.cut(str,cut_all=False)
temp = ' '.join(r)
print(temp)

利用jieba進行中文分詞並進行詞頻統計

1.安裝jieba庫在windows的Anaconda環境下如果沒有設定環境變數，則從Dos命令先進入...\Anaconda3\Scripts 目錄中，然後執行以下命令即可： pip install jieba 2.分詞示例我們先用一段文字來進

【python 走進NLP】利用jieba技術中文分詞並寫入txt

簡單介紹：近年來，隨著NLP自然語言處理技術的日益成熟，開源實現的分詞工具也越來越多，比如NLTK：其在英文分詞較為成熟，分詞效果較好，在處理中文分詞方面則顯得力不足；在處理中文分詞時，Jieba這一工具普遍為大家所接受，很多企業也都是利用這一工具來處理涉及中

使用jieba和wordcloud進行中文分詞並生成《悲傷逆流成河》詞雲

因為詞雲有利於體現文字資訊，所以我就將那天無聊時爬取的《悲傷逆流成河》的評論處理了一下，生成了詞雲。關於爬取影評的爬蟲大概長這個樣子(實際上是沒有爬完的): #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 16:3

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

使用python jieba庫進行中文分詞

jieba “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word

使用Python+jieba和java+庖丁分詞在Spark叢集上進行中文分詞統計

寫在前邊的話：本篇部落格也是在做豆瓣電影資料的分析過程中，需要對影評資訊和劇情摘要資訊進行分析而寫的一篇部落格以前學習hadoop時，感覺做中文分詞也沒那麼麻煩，但是到了

python中使用jieba進行中文分詞

原始碼下載的地址：https://github.com/fxsjy/jieba演示地址：http://jiebademo.ap01.aws.af.cm/ 一 “結巴”中文分詞：做最好的 Python 中文分片語件。支援三種分詞模式：精確模式，試圖將句子最精確地切開，適

python讀寫txt檔案，並用jieba庫進行中文分詞

在虎撲上隨便找了一段文字，貼上到word.txt檔案中，然後對這段文字進行處理。其中用到的matplotlib庫，主要是用來繪圖；jieba庫，對文字進行分詞；wordcloud庫，構建詞雲。一、引用庫

Python利用結巴分詞進行中文分詞

利用結巴分詞進行中文分詞，選擇全模式，建立詞倒排索引，並實現一般多詞查詢和短語查詢 # -*- coding: utf-8 -*- import jieba ''' Created on 2015-11-23 ''' def word_split(text): "

利用庖丁解牛工具進行中文分詞

關於如何使用庖丁解牛分詞工具可參考：http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 該工具可實現自定義詞典，對於有些特殊的詞，比如明星名字林心如霍建華等，可構建詞典以.dic為

在C++中呼叫Jieba進行中文分詞

背景之前有個小專案用到了中文分詞，但當時使用的ICTCLAS需要每個月下載證書，很不方便。後來在網上找到了一個開源的python實現的中文分詞器Jieba，可以使用pip直接安裝本地。但之前的專案是c++實現的，所以需要考慮跨語言的呼叫問題。 Python

轉載：Spark 使用ansj進行中文分詞

轉載：https://www.cnblogs.com/JustIsQiGe/p/8006734.html 在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj原始碼github：https://github.com/

使用Java呼叫Stanford CoreNLP 進行中文分詞

Stanford CoreNLP 進行中文分詞中文分詞的工具有很多，使用斯坦福的CoreNLP進行分詞的教程網上也不少，本篇部落格是記錄自己在使用Stanford CoreNLP進行中文分詞的學習筆記。 1. 工具準備 1.1 下載NLP相關包：網址： https://stanfordn

spark叢集環境下使用hanlp進行中文分詞

標籤：zab table import shel – java standard mas tokenizer 1、將下載的hanlp-portable-1.6.2.jar複製到叢集spark/jar資料夾下面 2、啟動spark叢集 spark/bin/spark-shel

使用IKAnalyzer進行中文分詞

一個完整的結構如下：其中ext.dic和chinese_stopword.dic都是自定義的，這裡ext.dic用的是百度百科的詞條【496萬個詞條】，需要在xml裡面新增dic的位置。<?xml version="1.0" encoding="UTF-8"?>&l

用正向和逆向最大匹配演算法進行中文分詞（續）

一、結果分析： 1.程式執行結果，如下圖所示： 2.總體分析。（1）正向和逆向匹配都正確的句子數目為 1731，佔句子總數的39.0% （2）正向最大匹配完全正確的句子數目為 1917，佔句子總數的43

python3進行中文分詞和詞性標註

配置python環境(win10) 雙擊安裝，我安裝在了D:\python 中。新增環境變數。在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 ->

Python呼叫PYNIPIR(ICTCLAS)進行中文分詞

NLPIR漢語分詞系統,主要功能包括中文分詞；詞性標註；命名實體識別；使用者詞典功能；支援GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵詞提取；張華平博士先後傾力打造十餘年，核心升級10次。（http://ictclas.nlpir.org

使用R語言進行中文分詞

1.準備包 ①rJava包 ② Rwordseg包 ③java環境 ④搜狗詞庫（此為擴充套件詞庫） Rwordseg包依賴於rJava包。由於Rwordseg包並沒有託管在CRAN上面，而是在R-Forge上面，因此在在R軟體上面直接

最大熵模型進行中文分詞

本文運用字標註法進行中文分詞，最大熵模型方面使用開源的張樂博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)。使用的中文語料資源是SIGHAN提供的backoff 2005語料，

利用jieba進行中文分詞並進行詞頻統計

相關推薦