python基礎===jieba模塊,Python 中文分詞組件
阿新 • • 發佈:2017-12-28
word cut 用法 地址 api mas 精確 == com
api參考地址:https://github.com/fxsjy/jieba/blob/master/README.md
安裝自行百度
基本用法:
import jieba #全模式 word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一/ 人/ 我/ 飲酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成雙/ 對/ / / 兩眼/ / / 是/ 獨/ 相隨/ / / 我/ 只求/ 他/ 日/ 能/ 雙/ 歸 #精確模式 word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸", cut_all = False) print("Default Mode:" + ‘/ ‘.join(word)) #>>>Default Mode:一人/ 我/ 飲酒/ 醉/ / 醉/ 把/ 佳人/ 成雙/ 對/ / 兩眼/ / 是/ 獨/ 相隨/ / 我/ 只求/ 他/ 日/ 能/ 雙歸 #默認是精確模式 word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸") print(", ".join(word)) #>>>一人, 我, 飲酒, 醉, , 醉, 把, 佳人, 成雙, 對, , 兩眼, , 是, 獨, 相隨, , 我, 只求, 他, 日, 能, 雙歸#搜索引擎模式 word = jieba.cut_for_search("敗帝王鬥蒼天奪得了皇位已成仙豪情萬丈天地間我續寫了另類帝王篇") print(", " .join(word)) #>>>敗, 帝王, 鬥, 蒼天, 奪得, 了, 皇位, 已, 成仙, 豪情, 萬丈, 豪情萬丈, 天地, 天地間, 我, 續寫, 了, 另類, 帝王, 篇
也可以自定義詞組
import jieba word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一/ 人/ 我/ 飲酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成雙/ 對/ / / 兩眼/ / / 是/ 獨/ 相隨/ / / 我/ 只求/ 他/ 日/ 能/ 雙/ 歸 #自定義詞組 jieba.add_word(‘一人我‘) word = jieba.cut("一人我飲酒醉 醉把佳人成雙對 兩眼 是獨相隨 我只求他日能雙歸", cut_all = True) print("Full Mode:" + "/ ".join(word)) #>>>Full Mode:一人我/ 飲酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成雙/ 對/ / / 兩眼/ / / 是/ 獨/ 相隨/ / / 我/ 只求/ 他/ 日/ 能/ 雙/ 歸
詞性標註
import jieba.posseg as pseg words = pseg.cut("我愛北京天安門") for word,flag in words: print(‘%s %s‘ % (word, flag)) #>>>我 r
愛 v
北京 ns
天安門 ns
python基礎===jieba模塊,Python 中文分詞組件