PyNLPIR python中文分詞工具
阿新 • • 發佈:2017-09-21
命名 hub 兩個 工具 ict mage ret wid tty 官網:https://pynlpir.readthedocs.io/en/latest/ github:https://github.com/tsroten/pynlpir
NLPIR分詞系統前身為2000年發布的ICTCLAS詞法分析系統,從2009年開始,為了和以前工作進行大的區隔,並推廣NLPIR自然語言處理與信息檢索共享平臺,調整命名為NLPIR分詞系統。 其主要的功能有中文分詞,標註詞性和獲取句中的關鍵詞。
主要用到的函數有兩個: pynlpir.segment(s, pos_tagging=True, pos_names=‘parent‘, pos_english=True )
pynlpir.get_key_words(s, max_words=50, weighted=False)
分詞:pynlpir.segment(s, pos_tagging=True, pos_names=‘parent‘, pos_english=True) S: 句子 pos_tagging:是否進行詞性標註 pos_names:顯示詞性的父類(parent)還是子類(child) 或者全部(all) pos_english:詞性顯示英語還是中文
獲取關鍵詞:pynlpir.get_key_words(s, max_words=50, weighted=False)
s: 句子 max_words:最大的關鍵詞數 weighted:是否顯示關鍵詞的權重
null
NLPIR分詞系統前身為2000年發布的ICTCLAS詞法分析系統,從2009年開始,為了和以前工作進行大的區隔,並推廣NLPIR自然語言處理與信息檢索共享平臺,調整命名為NLPIR分詞系統。 其主要的功能有中文分詞,標註詞性和獲取句中的關鍵詞。
主要用到的函數有兩個: pynlpir.segment(s, pos_tagging=True, pos_names=‘parent‘, pos_english=True
pynlpir.get_key_words(s, max_words=50, weighted=False)
分詞:pynlpir.segment(s, pos_tagging=True, pos_names=‘parent‘, pos_english=True) S: 句子 pos_tagging:是否進行詞性標註 pos_names:顯示詞性的父類(parent)還是子類(child) 或者全部(all)
獲取關鍵詞:pynlpir.get_key_words(s, max_words=50, weighted=False)
s: 句子 max_words:最大的關鍵詞數 weighted:是否顯示關鍵詞的權重
import pynlpir
import jieba
pynlpir.open()
s = ‘最早的幾何學興起於公元前7世紀的古埃及‘
# s = ‘hscode為0110001234的進口‘
segments = pynlpir
.segment(s, pos_names=‘all‘,pos_english=False)for segment in segments:
print (segment[0], ‘\t‘, segment[1])
key_words = pynlpir.get_key_words(s, weighted=True)
for key_word in key_words:
print (key_word[0], ‘\t‘, key_word[1])
pynlpir.close()
null
PyNLPIR python中文分詞工具