1. 程式人生 > >中文分詞:python-jieba-安裝及使用樣例

中文分詞:python-jieba-安裝及使用樣例

前言(關於分詞)

最開始知道jieba是(為了完成Data Mining課程作業)在收集新聞文字分類的資料的時候:新聞上的文字分類。通過傳統的機器學習方法和深度學習方法來做新聞短文字分類,並對這些方法進行對比。

同時收集到的其他資料還有:

資料探勘 文字分類(一) 綜述中,知道了另一個分析工具:中科院張華平博士的漢語詞法分析系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。連結:http://ictclas.nlpir.org/

---------------------------------------------------------------

1,jieba 安裝

1.1  先下載Jieba,

1.2  然後在windows的命令提示符中輸入(假設解壓在D盤) :

C:\Users\Administrator>D:
D:\>  cd D:\jieba-0.35
D:\TDDownload\jieba-0.35>  python setup.py install

資料參考:

---------------------------------------------------------------

2, 程式碼示例

2.1  初見

#encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") #預設是精確模式
print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") #搜尋引擎模式
print ", ".join(seg_list)

2.2  jieba分詞並統計詞頻

資料參考:

大部分都是參考著別人的資料做的,一步一腳印來吧。