使用jieba分詞並去除停用詞流程程式

阿新 • • 發佈：2018-12-10

準備工作

① 構建未分詞檔案、已分詞檔案兩個資料夾，將未分詞資料夾按類目定義檔名，各個類目的資料夾下可放置多個需要分詞的檔案。

② 準備一份停用詞（jieba自身應該是沒有停用詞的）

③ 根據業務需要自定義詞典（此處使用jieba自帶字典）

分詞去停詞.py

""" 
@file: 分詞去停詞.py
@Time: 2018/08/27
@Author:hnq
"""
#本程式主要用於jieba分詞，以及去除停用詞

import os
import jieba

# 儲存檔案的函式
def savefile(savepath,content):
    fp = open(savepath,'w',encoding='utf8',errors='ignore')
    fp.write(content)
    fp.close()

# 讀取檔案的函式
def readfile(path):
    fp = open(path, "r", encoding='utf8', errors='ignore')
    content = fp.read()
    fp.close()
    return content

## 去除停用詞的2個函式
# 建立停用詞list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

# 對句子去除停用詞
def movestopwords(sentence):
    stopwords = stopwordslist('stop_words.txt')  # 這裡載入停用詞的路徑
    outstr = ''
    for word in sentence:
        if word not in stopwords:
            if word != '\t'and'\n':
                outstr += word
                # outstr += " "
    return outstr

if __name__ == '__main__':

    corpus_path = "語料/train/"  # 未分詞分類預料庫路徑
    seg_path = "語料/train_seg/"  # 分詞後分類語料庫路徑

    catelist = os.listdir(corpus_path)  # 獲取未分詞目錄下所有子目錄
    for mydir in catelist:
        class_path = corpus_path + mydir + "/"  # 拼出分類子目錄的路徑
        seg_dir = seg_path + mydir + "/"  # 拼出分詞後預料分類目錄
        if not os.path.exists(seg_dir):  # 是否存在，不存在則建立
            os.makedirs(seg_dir)

        file_list = os.listdir(class_path) # 列舉當前目錄所有檔案
        for file_path in file_list:
            fullname = class_path + file_path # 路徑+檔名
            print("當前處理的檔案是： ",fullname)  # 語料/train/pos/pos.txt
                            #  語料/train/neg/neg1.txt

            content = readfile(fullname).strip()  # 讀取檔案內容
            content = content.replace("\n", "").strip()  # 刪除換行和多餘的空格
            content_seg = jieba.cut(content)    # jieba分詞
            print("jieba分詞後：",content_seg)
            listcontent = ''
            for i in content_seg:
                listcontent += i
                listcontent += " "
                # listcontent.replace(' ','\n').replace('  ','\n')
            print(listcontent[0:10])
            listcontent = movestopwords(listcontent)    # 去除停用詞
            print("去除停用詞後：", listcontent[0:10])
            listcontent = listcontent.replace("   ", "\n").replace("  ", "\n")
            savefile(seg_dir + file_path, "".join(listcontent)) # 儲存

使用jieba分詞並去除停用詞流程程式

準備工作 ① 構建未分詞檔案、已分詞檔案兩個資料夾，將未分詞資料夾按類目定義檔名，各個類目的資料夾下可放置多個需要分詞的檔案。 ② 準備一份停用詞（jieba自身應該是沒有停用詞的） ③ 根據業務需要自定義詞典（此處使用jieba自帶字典）分詞去停詞.py

【Python】中文分詞並過濾停用詞

中文分詞並過濾停用詞，python程式碼如下。 #coding=utf-8 import jieba input_path='../data/train_pos_100.txt' output_path='../data/train_pos_100_seg.txt' st

python使用jieba實現中文文檔分詞和去停用詞

分享圖片 lac lena idt center cut inpu span code 分詞工具的選擇：　　現在對於中文分詞，分詞工具有很多種，比如說：jieba分詞、thulac、SnowNLP等。在這篇文檔中，筆者使用的jieba分詞，並且基於python3環境，選擇

利用java實現對文字的去除停用詞以及分詞處理

功能：對txt文件進行分詞處理，並去除停用詞。工具： IDEA，java，hankcs.hanlp.seg.common.Term等庫。程式： import java.util.*; import java.io.*; import java.lang.String; imp

【java HanNLP】HanNLP 利用java實現對文字的去除停用詞以及分詞處理

HanNLP 功能很強大，利用它去停用詞，加入使用者自定義詞庫，中文分詞等，計算分詞後去重的個數、 maven pom.xml 匯入 <dependency> <groupId>com.hankcs</g

python 去除停用詞結巴分詞

#coding:gbk import jieba #stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ]) stopwords = {}.fromkeys(['的', '附近']) segs =

jieba 去除停用詞、提取關鍵詞、詞性標註

#-*- coding:utf-8 -*- import sys import jieba import os import jieba.analyse import string import ma

python jieba分詞（新增停用詞，使用者字典取詞頻

中文分詞一般使用jieba分詞 1.安裝 1 pip install jieba 2.大致瞭解jieba分詞包括jieba分詞的3種模式全模式 1 import jieba 2 3 seg_list = jieba.cut("我來到北京清華大學", cut_all=True, HMM=False

Python進行文字預處理（文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示）

系統：win7 32位分詞軟體：PyNLPIR 整合開發環境（IDE）：Pycharm 功能：實現多級文字預處理全過程，包括文字分詞，過濾停用詞，詞頻統計，特徵選擇，文字表示，並將結果匯出為WEKA能夠處理的.arff格式。直接上程式碼： #!/usr/bin/

使用IKAnalyzer實現中文分詞&去除中文停用詞

1、簡介：IKAnalyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包。這裡使用的是IKAnalyzer2012。 2、IK Analyzer 2012特性: （1）採用了特有的“正向迭代最細粒度切分演算法“，支援細粒度和智慧分詞兩種切分模式；（2）在

python呼叫jieba(結巴)分詞加入自定義詞典和去停用詞功能

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #匯入jieba模組 import re jieba.load_userdict("newdict.t

改進的中科院分詞系統NLPIR程式碼（加入使用者詞典，去停用詞，檔案讀寫）+情感分析字典包+工具包+論文包

NLPIR分詞，加入使用者詞典，去停用詞，檔案讀寫等原始碼下載地址優化的分詞系統程式碼原始碼下載地址 NLPIR分詞系統優化的分詞系統程式碼以下是核心程式碼完整程式碼可以直接執行分詞，點我跳轉 public cl

郵件分詞去掉停用詞

!pip install nltk #讀取檔案 text = 'Be assured that individual statistics are not disclosed and this is for internal use only..I am pleased to infor

php 去除常見中文停用詞(過濾敏感詞)

在用sphinx通過文章標題匹配相關文章時，去除停用詞後調出的文章相關性更好。 <?php header("Content-type:text/html;charset=utf-8"); $str = file_get_contents('stop.txt');//將常見中文停用詞表內容讀入

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

# -*- coding: utf-8 -*- """ Created on Tue Apr 17 15:11:44 2018 @author: NAU """ ##############分詞、自定義詞表、停用詞################ import jieba

第二章：基於IK的智慧分詞、細粒度分詞、同義詞、停用詞

2. 將檔案放入solr.war的WEB-INF/lib下 3. 將IKAnalyzer.cfg.xml、ext.dic、stopword.dic放到WEB-INF/classes目錄下，注意：classes目錄沒有，需要手動建立 4. 配置同義詞與停用詞 <

中文分詞與停用詞的作用

首先什麼是中文分詞stop word？英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文句子I am a student，用中文則為：“我是一個學生”。計算機可以很簡單通過空格知道studen

如何在java中去除中文文字的停用詞

1. 整體思路第一步：先將中文文字進行分詞，這裡使用的HanLP-漢語言處理包進行中文文字分詞。第二步：使用停

es中的停用詞

其他搜索 last 高頻包含代碼標簽 score 大小停用詞主要是為了提升性能與精度。從早期的信息檢索到如今，我們已習慣於磁盤空間和內存被限制為很小一部分，所以必須使你的索引盡可能小。每個字節都意味著巨大的性能提升。詞幹提取的重要性不僅是因為它讓搜索的內容更

Elasticsearch的停用詞(stopwords)

query tle IT cut 情況下要求 true 可能利用１、問題在使用搜索引擎(Elasticsearch或Solr)作為應用的後臺搜索平臺的時候，會遇到停用詞(stopwords)的問題。在信息檢索中，停用詞是為節省存儲空間和提高搜索效率，處理文本時自動

使用jieba分詞並去除停用詞流程程式

準備工作

分詞去停詞.py

相關推薦