1. 程式人生 > >中文分詞 jieba和HanLP

中文分詞 jieba和HanLP

安裝python包:

pip install nltk
pip install jieba
pip install pyhanlp
pip install gensim

使用jieba進行分詞

import jieba
content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。"
# cut_all 引數用來控制是否採用全模式
segs_1 = jieba.cut(content, cut_all=False)
print("/".join(segs_1))
segs_3 = jieba.cut(content, cut_all=True)
print("/".join(segs_3))
segs_4 = jieba.cut_for_search(content)  # 預設不使用 HMM 模型
print("/".join(segs_4))
segs_5 = jieba.lcut(content)
print(segs_5)
# 獲取詞性
import jieba.posseg as psg
print([(x.word,x.flag) for x in psg.lcut(content)])
# 獲取分詞結果中詞列表的 top n
from collections import Counter
top5= Counter(segs_5).most_common(5)
print(top5)
txt = "鐵甲網是中國最大的工程機械交易平臺。"
print(jieba.lcut(txt))
jieba.add_word("鐵甲網")
# jieba.load_userdict('user_dict.txt')
print(jieba.lcut(txt))

結果為:
[‘鐵甲網’, ‘是’, ‘中國’, ‘最大’, ‘的’, ‘工程機械’, ‘交易平臺’, ‘。’]

使用pyhanlp進行分詞

from pyhanlp import *
content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在圖片處理、語音識別領域取得巨大成功。"
print(HanLP.segment(content))
txt = "鐵甲網是中國最大的工程機械交易平臺。"
print(HanLP.segment(txt))
CustomDictionary.add("鐵甲網")
CustomDictionary.insert("工程機械", "nz 1024")
CustomDictionary.add("交易平臺", "nz 1024 n 1")
print(HanLP.segment(txt))

結果為:
[鐵甲網/nz, 是/vshi, 中國/ns, 最大/gm, 的/ude1, 工程機械/nz, 交易平臺/nz, 。/w]