中文分詞:python-jieba-安裝及使用樣例
阿新 • • 發佈:2019-01-07
前言(關於分詞)
最開始知道jieba是(為了完成Data Mining課程作業)在收集新聞文字分類的資料的時候:新聞上的文字分類。通過傳統的機器學習方法和深度學習方法來做新聞短文字分類,並對這些方法進行對比。
同時收集到的其他資料還有:
在資料探勘 文字分類(一) 綜述中,知道了另一個分析工具:中科院張華平博士的漢語詞法分析系統ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。連結:http://ictclas.nlpir.org/。
---------------------------------------------------------------
1,jieba 安裝
1.1 先下載Jieba,
1.2 然後在windows的命令提示符中輸入(假設解壓在D盤) :
C:\Users\Administrator>D:
D:\> cd D:\jieba-0.35
D:\TDDownload\jieba-0.35> python setup.py install
資料參考:
---------------------------------------------------------------
2, 程式碼示例
2.1 初見
#encoding=utf-8 import jieba seg_list = jieba.cut("我來到北京清華大學",cut_all=True) print "Full Mode:", "/ ".join(seg_list) #全模式 seg_list = jieba.cut("我來到北京清華大學",cut_all=False) print "Default Mode:", "/ ".join(seg_list) #精確模式 seg_list = jieba.cut("他來到了網易杭研大廈") #預設是精確模式 print ", ".join(seg_list) seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") #搜尋引擎模式 print ", ".join(seg_list)
2.2 jieba分詞並統計詞頻
資料參考:
大部分都是參考著別人的資料做的,一步一腳印來吧。