1. 程式人生 > >【python資料處理】jieba分詞

【python資料處理】jieba分詞

jieba(結巴)是一個強大的分詞庫,完美支援中文分詞 

三種分詞模式

import jieba

s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。'
cut = jieba.cut(s)

#三種模式
print( '【Output】精確模式:')
print (cut)
print ('/'.join(cut))

print( '【Output】全模式:')
print ('/'.join(jieba.cut(s,cut_all = True)))

print( '【Output】搜尋引擎模式:')
print('/'.join(jieba.cut_for_search(s)))

 結果

 詞性分析

import jieba
import jieba.posseg as psg

s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。'
cut = jieba.cut(s)


print ('【Output】')
for x in psg.cut(s):
    if (x.flag.startswith('n')):
        print([x.word,x.flag])

結果

高頻詞統計 

 由於不給條件會把 的 吧 這種無意義的詞選入 所以給了一個限制len(x)>=2

import jieba
import jieba.posseg as psg
from collections import Counter

s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。'
cut = jieba.cut(s)

santi_text = open('st.txt',encoding='utf-8').read()
santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2]
jieba.disable_parallel()
c = Counter(santi_words).most_common(20)
print (c)