python3.6實現中文分詞統計-自然語言處理小專案

阿新 • • 發佈：2019-01-18

前言

本文分為三部分，第一部分是安裝兩個中文分詞工具包，第二部分是對中文字串進行分詞，第三部分是進一步對中文文字進行分詞。Part 1 安裝中文分詞工具
背景：已經安裝了python3.6，設定好環境變數，安裝了pip模組介面：進入windows的管理員命令模式

pip install thulac        #安裝清華大學的thulac中文詞法分析包
pip install jieba          #安裝最好的中文詞法分析包jieba

Part 2 對字串分詞import jieba；seg_list = jieba.cut("我來到北京清華大學", cut_all=False) #jieba資料夾下的__init__.py中有個cut的函式，它是控制整個jieba分詞包的主函式。

def cut(sentence,cut_all=False,HMM=True)，sentence是需要分詞的句子樣本；cut_all是分詞的模式，jieba分詞有全模式(true)和精準模式(false)兩種；HMM就是隱馬爾可夫鏈，這個是在分詞的理論模型中用到的，預設是開啟的。print"/ ".join(seg_list)#str.join(sequence)，用於將sequence序列中的元素以指定的字元str連線生成一個新的字串。Part 3 對文字檔案分詞

#! python3
# -*- coding: utf-8 -*-
import jieba    #匯入結巴模組
from  
collections import Counter     #匯入collections模組的Counter類
#對文字檔案txt進行分詞，並統計詞頻，再顯示結果
def get_words(txt):
#S1 對文字進行分詞
list = jieba.cut(txt)   #結巴模組的cut函式用於中文分詞
#S2 統計詞頻
c = Counter()   #建立空的Counter計數器，關於counter的知識可參考本部落格的另一篇博文，位於python資料夾內
for x in list:  #分詞結果中迴圈提取詞語
if len(x) > 1 and x != '\r\n':   
#略掉只有一個字的詞語和回車、換行
c[x] += 1   #統計每個單詞的計數值
#S3 將結果視覺化
print('常用詞頻統計結果')
for(k,v) in c.most_common(100):     #只取出現值最高的前100個詞語
print('%s%s %s  %d' % ('  '*(5-len(k)), k, '*'*int(v/3), v))    #前5個位置列印空格或詞語，有右對齊的效果
#讀取某文字檔案(預設uft-8格式)
with open('C:\\Python36\\test.txt','r') as f :
    txt = f.read()
#對該檔案進行分詞，並統計詞頻，顯示結果
get_words(txt)

參考：https://blog.csdn.net/puqutogether/article/details/40740473 Jieba分詞包（一）——解析主函式cuthttps://segmentfault.com/a/1190000011769662 python 實現中文分詞統計https://blog.csdn.net/onestab/article/details/78307765 Python jieba 中文分詞與詞頻統計http://thulac.thunlp.org THULAC：一個高效的中文詞法分析工具包https://github.com/fxsjy/jieba jieba

python3.6實現中文分詞統計-自然語言處理小專案

前言

python3.6實現中文分詞統計-自然語言處理小專案

結巴分詞和自然語言處理HanLP處理手記

Sphinx + Coreseek 實現中文分詞搜索

搭建ELASTICSEARCH實現中文分詞搜索功能

IKAnalyzer結合Lucene實現中文分詞

利用隱馬爾科夫鏈（HMM）模型實現中文分詞

Trie Tree 實現中文分詞器

BiLSTM+keras+tensorflow實現中文分詞

java HashMap實現中文分詞器應用：敏感詞過濾實現

使用Python+jieba和java+庖丁分詞在Spark叢集上進行中文分詞統計

使用IKAnalyzer實現中文分詞&去除中文停用詞

elasticsearch實現中文分詞和拼音分詞混合查詢+CompletionSuggestion

統計自然語言處理梳理一：分詞、命名實體識別、詞性標註

Lucene實現中文分詞

Spark 大資料中文分詞統計（一）開發環境搭建

基於監督學習的隱馬爾科夫模型(HMM)實現中文分詞

使用Spark框架中文分詞統計

用foolnltk工具包實現中文分詞和命名實體識別

2017MySQL中文索引解決辦法自然語言處理(N-gram parser)

NLPIR：中文語義挖掘是自然語言處理的關鍵

python3.6實現中文分詞統計-自然語言處理小專案

前言

相關推薦