1. 程式人生 > >python呼叫jieba(結巴)分詞 加入自定義詞典和去停用詞功能

python呼叫jieba(結巴)分詞 加入自定義詞典和去停用詞功能

複製程式碼
#!/usr/bin/python  
#-*- encoding:utf-8 -*-  
import jieba                                           #匯入jieba模組
import re 
jieba.load_userdict("newdict.txt")                     #載入自定義詞典  
import jieba.posseg as pseg 

def splitSentence(inputFile, outputFile):
    #把停用詞做成字典
    stopwords = {}
    fstop 
= open('stop_words.txt', 'r') for eachWord in fstop: stopwords[eachWord.strip().decode('utf-8', 'ignore')] = eachWord.strip().decode('utf-8', 'ignore') fstop.close() fin = open(inputFile, 'r') #以讀的方式開啟檔案 fout = open(outputFile, 'w') #
以寫得方式開啟檔案 jieba.enable_parallel(4) #並行分詞 for eachLine in fin: line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出現的空格,並轉為Unicode進行處理 line1 = re.sub("[0-9\s+\.\!\/_,$%^*()?;;:-【】+\"\']+|[+——!,;:。?、[email protected]#¥%……&*()]+
".decode("utf8"), "".decode("utf8"),line) wordList = list(jieba.cut(line1)) #用結巴分詞,對每行內容進行分詞 outStr = '' for word in wordList: if word not in stopwords: outStr += word outStr += ' ' fout.write(outStr.strip().encode('utf-8') + '\n') #將分詞好的結果寫入到輸出檔案 fin.close() fout.close() splitSentence('ss.txt', 'tt.txt')

相關推薦

python呼叫jieba(結巴) 加入定義詞典功能

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #匯入jieba模組 import re jieba.load_userdict("newdict.t

python使用jieba實現中文文檔

分享圖片 lac lena idt center cut inpu span code 分詞工具的選擇:   現在對於中文分詞,分詞工具有很多種,比如說:jieba分詞、thulac、SnowNLP等。在這篇文檔中,筆者使用的jieba分詞,並且基於python3環境,選擇

改進的中科院系統NLPIR程式碼(加入使用者詞典,檔案讀寫)+情感分析字典包+工具包+論文包

NLPIR分詞,加入使用者詞典,去停用詞,檔案讀寫等 原始碼下載地址 優化的分詞系統程式碼 原始碼下載地址 NLPIR分詞系統 優化的分詞系統程式碼 以下是核心程式碼 完整程式碼可以直接執行分詞,點我跳轉 public cl

jieba定義詞典提取高頻、詞性標註及獲取的位置

準備工作 安裝anaconda環境,anaconda環境是一個強大的科學計算環境,自帶python2.7和3.4兩個版本以及很多科學計算庫 安裝完成後配置環境變數,然後在終端用pip install jieba安裝結巴分詞庫 jieba介紹 支援

IK中文擴充套件定義詞典!!!

  2.2.1.在自定義分詞內容的載入中,首先呼叫Configuration類中的一個方法,用來獲得IKAnalyzer.cfg.xml(自定義詞典檔案配置路徑)中配置的自定義詞典檔案的配置路徑。List<String> extDictFiles  = Configuration.getExtD

(轉)python 全棧開發,Day70(模板定義標籤過濾器,模板繼承 (extend),Django的模型層-ORM簡介)

昨日內容回顧 檢視函式: request物件 request.path 請求路徑 request.GET GET請求資料 QueryDict {} request.POST POST請求資料 Que

NLPIR加入定義詞典(java)

2 下載後解壓,將Data資料夾複製到eclipse的專案下(與src同級) 3 根據自己到電腦配置,拷貝NLPIR的lib資料夾下有對應不同版本(win/linux,32/54位)的.so或者.dll檔案,放置到專案到bin資料夾下。注:放置到bin資料

python安裝Jieba中文組件並測試

圖片 class pypi setup.py bubuko for 中文 users mage python安裝Jieba中文分詞組件 1、下載http://pypi.python.org/pypi/jieba/ 2、解壓到解壓到python目錄下: 3、

jieba結巴

返回 int 使用 error import arch 豆瓣 但是 定義 pip install jieba安裝jieba模塊如果網速比較慢,可以使用豆瓣的Python源:pip install -i https://pypi.douban.com/simple/ jieb

使用python中的結巴作詞雲圖,對微信功能點進行輔助分析

工作室任務:基於知乎評論,分析微信功能點,做一次分享會。 一、原料和準備 1.從網上爬蟲的文件,儲存為txt文件,本例來源https://www.zhihu.com/question/23178234?from=groupmessage&isappinstalled

python 定義詞表、、詞頻統計與權值(tfidf)、詞性標註與部分詞性刪除

# -*- coding: utf-8 -*- """ Created on Tue Apr 17 15:11:44 2018 @author: NAU """ ##############分詞、自定義詞表、停用詞################ import jieba 

jieba增加定義詞表

在使用jieba分詞時經常會發現一些未登入詞,因此增加領域詞表就變得很重要,下面提供增加幾種途徑: 1、領域權威詞彙字典 2、搜狗輸入法領域詞庫、百度輸入法領域詞庫 然後這三種類型的使用者此表取個並集即可,在Python中使用集合操作即可,例如,三種字典均為列表(lis

jieba定義詞典

    從語料庫down下來的詞頻表,結合業務實際分詞進行調優,新增雲端計算(jieba無法準確劃分該詞)等詞及詞頻,down的檔案格式使用python的檔案讀寫進行調整: with open(file='./Minedic.txt',mode='r',encoding='

jieba 定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 原始: #encoding=utf-8 import jieba   import os   import sys   test_text="電話號碼查詢" #精確模式 se

jieba 結巴 常用說明

安裝 全自動:easy_install jieba 或者 pip install jieba 或者pip3 install jieba 手 動:jieba 目錄放置於當前目錄或

python 去除 結巴

#coding:gbk import jieba #stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ]) stopwords = {}.fromkeys(['的', '附近']) segs =

jieba與詞性標註定義詞典支援特殊字元

jieba分詞可以自定義詞表和詞庫。但是目前版本尚不支援特殊字元(如空格等)。參考github上的網友們的解答,總結修改方法如下:1、修改目錄(我的為windows系統,使用miniconda,路徑供參考,具體則需要根據自己實際情況進行修改):檔案路徑 D:\ProgramD

python jieba(新增,使用者字典 取詞頻

中文分詞一般使用jieba分詞 1.安裝 1 pip install jieba 2.大致瞭解jieba分詞 包括jieba分詞的3種模式  全模式 1 import jieba 2 3 seg_list = jieba.cut("我來到北京清華大學", cut_all=True, HMM=False

Python之路65-Django頁、定義

python目錄一、XSS二、分頁1三、分頁2四、分頁3一、XSS有下面一段代碼,想將這段代碼中的字符串渲染到HTML頁面中,默認Django是不能這樣去操作的views.pydef user_list(request): page_str = """ <a href="/use

python/Djangof頁與定義

from r+ else active count() 返回 log 多少 pan python/Djangof分頁與自定義分頁 Django分頁 1 ##============================================分頁========