1. 程式人生 > >python基礎===jieba模塊,Python 中文分詞組件

python基礎===jieba模塊,Python 中文分詞組件

word cut 用法 地址 api mas 精確 == com

api參考地址:https://github.com/fxsjy/jieba/blob/master/README.md

安裝自行百度

基本用法:

import jieba

#全模式
word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸", cut_all = True)
print("Full Mode:" + "/ ".join(word))
#>>>Full Mode:一/ 人/ 我/ 飲酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成雙/ 對/ / / 兩眼/ / / 是/ 獨/ 相隨/ / / 我/ 只求/ 他/ 日/ 能/ 雙/ 歸

#精確模式
word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸
", cut_all = False) print("Default Mode:" + / .join(word)) #>>>Default Mode:一人/ 我/ 飲酒/ 醉/ / 醉/ 把/ 佳人/ 成雙/ 對/ / 兩眼/ / 是/ 獨/ 相隨/ / 我/ 只求/ 他/ 日/ 能/ 雙歸 #默認是精確模式 word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸") print(", ".join(word)) #>>>一人, 我, 飲酒, 醉, , 醉, 把, 佳人, 成雙, 對, , 兩眼, , 是, 獨, 相隨, , 我, 只求, 他, 日, 能, 雙歸
#搜索引擎模式 word = jieba.cut_for_search("敗帝王鬥蒼天奪得了皇位已成仙豪情萬丈天地間我續寫了另類帝王篇") print(", " .join(word)) #>>>敗, 帝王, 鬥, 蒼天, 奪得, 了, 皇位, 已, 成仙, 豪情, 萬丈, 豪情萬丈, 天地, 天地間, 我, 續寫, 了, 另類, 帝王, 篇

也可以自定義詞組

import jieba

word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸", cut_all = True)
print("Full Mode:" + "
/ ".join(word)) #>>>Full Mode:一/ 人/ 我/ 飲酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成雙/ 對/ / / 兩眼/ / / 是/ 獨/ 相隨/ / / 我/ 只求/ 他/ 日/ 能/ 雙/ 歸 #自定義詞組 jieba.add_word(一人我) word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一人我/ 飲酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成雙/ 對/ / / 兩眼/ / / 是/ 獨/ 相隨/ / / 我/ 只求/ 他/ 日/ 能/ 雙/ 歸

詞性標註

import jieba.posseg as pseg

words = pseg.cut("我愛北京天安門")
for word,flag in words:
    print(%s %s % (word, flag))
#>>>我 r
愛 v
北京 ns
天安門 ns

python基礎===jieba模塊,Python 中文分詞組件