1. 程式人生 > >jieba分詞自定義詞典

jieba分詞自定義詞典

    從語料庫down下來的詞頻表,結合業務實際分詞進行調優,新增雲端計算(jieba無法準確劃分該詞)等詞及詞頻,down的檔案格式使用python的檔案讀寫進行調整:

with open(file='./Minedic.txt',mode='r',encoding='utf-8') as f:
    read=f.readlines()

for line in read:
    str=line.replace('\t',' ').rstrip()
    with open('./Minedic.txt','a+',encoding='utf-8')as f1:
        # print(1)
        f1.write(str+'\n')

    載入自定義詞典:jieba

str="我是雲端計算的工作人員,是中華人民共和國黨員,還是一名非常優秀的程式猿!"
jieba.load_userdict('Minedic.txt')
#預設 cut_all=False, HMM=True ,HMM:隱馬爾可夫演算法,能夠識別未登入語料
cut=jieba.cut(str, cut_all=False, HMM=True)
print(" ".join(cut))

serchCut = jieba.cut_for_search(str) # 搜尋引擎切割方式,帶上標點符號
print('/'.join(serchCut))