python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

阿新 • • 發佈：2018-12-22

# -*- coding: utf-8 -*-
"""
Created on Tue Apr 17 15:11:44 2018
@author: NAU
"""
##############分詞、自定義詞表、停用詞################
import jieba 
jieba.load_userdict('E:\\userdict.txt')    #自定義詞典
inputs = open('E:\\wdkb.txt', 'r')         #分詞文字
outputs = open('E:\\wdkbfenci.txt', 'w')   #分詞輸出文字
stopwords = open('E:\\stop.txt')           #停用詞

def seg_sentence(sentence):                #分詞
   sentence_seged = jieba.cut(sentence.strip()) 
    outstr ="" 
    for word insentence_seged: 
        if wordnot in stopwords: 
            if word != '\t': 
               outstr += word 
               outstr += " " 
    return outstr 
for line in inputs:                        #讀文字進行分詞
    line_seg =seg_sentence(line)  
   outputs.write(line_seg + '\n')
outputs.close() 
inputs.close() 

##############詞頻統計與權值################
import jieba
import jieba.analyse
content = u'中國特色社會主義是我們黨領導的偉大事業，全面推進黨的建設新的偉大工程，是這一偉大事業取得勝利的關鍵所在。黨堅強有力，事業才能興旺發達，國家才能繁榮穩定，人民才能幸福安康。黨的十八大以來，我們黨堅持黨要管黨、從嚴治黨，凝心聚力、直擊積弊、扶正祛邪，黨的建設開創新局面，黨風政風呈現新氣象。習近平總書記圍繞從嚴管黨治黨提出一系列新的重要思想，為全面推進黨的建設新的偉大工程進一步指明瞭方向。'
keywords = jieba.analyse.extract_tags(content,topK=20, withWeight=True, allowPOS=())
for item in keywords:
    printitem[0],item[1]

##############tfidf高頻詞################
tfidf = []         
inputs = open('C:\\Users\\NAU\\Desktop\\top.txt', 'r', encoding='utf8')                                               #分詞資料
outputs  = open('C:\\Users\\NAU\\Desktop\\top_feature.txt', 'w', encoding='utf8')                              #輸出文字
nagetive_top_words = inputs.read()                                                                                                  #讀取資料
inputs.close()                                                                                                                                     #關閉輸入文字
tags = jieba.analyse.extract_tags(nagetive_top_words, topK=100, withWeight=True)                     #tfidf程式碼呼叫
print (''.join(str(tags)) + '\n')                                                                                                                 #列印所有前100詞彙
for i in tags:                                                                                                                                         #每行列印一個詞彙
    print (i)
outputs.write(str(i) + '\n' for i in tags)

##############詞性標註################
import jieba
import jieba.posseg as pseg
jieba.load_userdict('E:\\userdict.txt')
inputs = open('E:\\negetive_sentence.txt', 'r')
outputs = open('E:\\negetive_tag.txt', 'w')
negative=inputs.read()
lines=negative.strip().split('\n')
            
def seg_sentence(sentence):               
    sentence_seged = pseg.cut(sentence.strip())
    outstr = ""  
    for w in sentence_seged:
        if w != '\t':
            outstr += str(w) 
            outstr += " "
    return outstr 
    
for line in lines:                        #讀文字進行分詞
    line_seg = seg_sentence(line) 
    outputs.write(line_seg + '\n')
    print(line_seg + '\n')

##############詞性刪除###############
import re
inputs = open('C:\\Users\\NAU\\Desktop\\data1.txt', 'r', encoding='utf8')
outputs = open('C:\\Users\\NAU\\Desktop\\data2.txt', 'w', encoding='utf8')
negative=inputs.readlines()
txtlist=[]
remove_word=["/nz","/zg","/m"]

for line in negative:                        #選擇需要的詞性
    line_list2 = re.split(' ',line)
    line_list = line_list2[:]
    for segs in line_list2:
            for k in remove_word:
                if k in segs:
                    line_list.remove(segs)
                    break
                else:
                    pass
    txtlist.append(line_list)
    
resultlist=txtlist[:]    
for sent in resultlist: 
    for word in sent:                       #刪除詞性標記
        if "/" in word:
            slope=word.index("/")
            letter=word[0:slope]+" "
            outputs.write(letter)
            print(letter)
        else:
            outputs.write(word)

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

# -*- coding: utf-8 -*- """ Created on Tue Apr 17 15:11:44 2018 @author: NAU """ ##############分詞、自定義詞表、停用詞################ import jieba

jieba分詞增加自定義詞表

在使用jieba分詞時經常會發現一些未登入詞，因此增加領域詞表就變得很重要，下面提供增加幾種途徑： 1、領域權威詞彙字典 2、搜狗輸入法領域詞庫、百度輸入法領域詞庫然後這三種類型的使用者此表取個並集即可，在Python中使用集合操作即可，例如，三種字典均為列表（lis

自定義的可拖動滑塊驗證碼的實現方式（SlideView）

概述：最近專案中需要在密碼輸入一定次數後盡心拖動滑塊進行驗證，防止惡意程式程式碼一直測試登入，用了GitHub的一個開源庫SlideView，但是直接依賴原始碼是改不了樣式的，下邊給出自定

【安卓-自定義佈局】安卓App開發思路一步一個腳印（十）實現內嵌在app中的webview 騰訊開源X5 高效安全

實現內嵌在app中的webview 採用騰訊開源X5 高效安全 webview在app的使用中，十分頻繁，原生的webview載入速度相對來說很慢，而且很費流量。騰訊開源了x5的webview

C庫-----字串（string）與整型（int）、浮點型（float）等之間的轉換

#include <stdlib.h> 1.int/float to string/array: C語言提供了幾個標準庫函式，可以將任意型別(整型、長整型、浮點型等)的數字轉換為字串

【安卓-自定義佈局】安卓App開發思路一步一個腳印（九）實現自定義滾動的新聞條目上下滾動-仿蘑菇街

實現自定義滾動的新聞條目上下滾動-仿蘑菇街這種上下滾動的自定義佈局，就像是公告那種上下的翻滾，一般為文字的滾動，很明顯，就是自定義佈局，一般是線性佈局。這裡提到的安卓原生的控制元件自然是

Python之路65-Django分頁、自定義分頁

python目錄一、XSS二、分頁1三、分頁2四、分頁3一、XSS有下面一段代碼，想將這段代碼中的字符串渲染到HTML頁面中，默認Django是不能這樣去操作的views.pydef user_list(request): page_str = """ <a href="/use

jieba分詞、自定義詞典提取高頻詞、詞性標註及獲取詞的位置

準備工作安裝anaconda環境，anaconda環境是一個強大的科學計算環境，自帶python2.7和3.4兩個版本以及很多科學計算庫安裝完成後配置環境變數，然後在終端用pip install jieba安裝結巴分詞庫 jieba介紹支援

solr中ik分詞配置同義詞、停止詞、自定義詞庫

版本說明(不同版本配置可能不同)： solr : 5.0.0 ik: IKAnalyzer2012FF_u2.jar 一、停止詞和自定義詞庫 IKAnalyzer2012FF_u2.jar複製到solr-5.0.0/server/solr-webapp/webapp/W

大資料（二十二）：hive分桶及抽樣查詢、自定義函式、壓縮與儲存

一、分桶及抽樣查詢 1.分桶表資料儲存分割槽針對的是資料儲存路徑（HDFS中表現出來的便是資料夾），分桶針對的是資料檔案。分割槽提供一個隔離資料和優化查詢的便利方式。不過，並非所有的資料集都可形成合理的分割槽，特別是當資料要

Python基礎筆記_Day13_Python檔案讀寫IO、異常、自定義異常

Day13_Python檔案讀寫IO、異常、自定義異常 13.01_Python語言基礎(檔案概述)(熟練) 13.02_Python語言基礎(檔案開啟關閉)(掌握) 13.03_Python語言基礎(檔案的讀寫)(掌握) 13.04_Python語言基礎(製作檔案的備份)(掌握) 13

Python基礎筆記_Day09_Python模組、自定義模組、包、時間模組

Day09_Python模組、自定義模組、包、時間模組 09.01_Python語言基礎(模組概述)(掌握) 09.02_Python語言基礎(匯入模組--import)(掌握) 09.03_Python語言基礎(模組重新命名import...as)(掌握) 09.04_Python語言

一句python，一句R︱列表、元組、字典、資料型別、自定義模組匯入（格式、去重）

先學了R，最近剛剛上手python,所以想著將python和R結合起來互相對比來更好理解python。最好就是一句python，對應寫一句R。pandas中有類似R中的read.table的功能，而且很像。———————————————————————————————————

python呼叫jieba(結巴)分詞加入自定義詞典和去停用詞功能

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #匯入jieba模組 import re jieba.load_userdict("newdict.t

BOS項目第2天（BaseDao、BaseAction、用戶登錄、自定義strust登錄攔截器）

XML sage pdm nat cls his jquer als 是否一致 BOS項目第2天今天內容安排： 1、根據提供的pdm文件生成sql 2、持久層和表現層設計---BaseDao、BaseAction 3、實現用戶登錄功能 4、jQuery EasyUI

js數組、內置對象、自定義對象

表達式 uppercase 元素 mon 下標 fix 無序 locale 變化【js中的數組】 1、數組的基本概念？數組是在內存空間中連續存儲的一組有序數據的集合元素在數組中的順序，稱為下標。可以使用下表訪問數字的每個元素。 2、如何

JS高級. 02 面向對象、創建對象、構造函數、自定義構造函數、原型

浪費 truct 創建過程 spa const 使用指向找到 tro 面向對象的三大特性：　　封裝　　　　a) 把一些屬性和方法裝到一個對象裏　　2. 繼承　　　　a) js中的繼承是指: 　　一個對象沒有一些方法和屬性,而另一個對象有

Vue--由自動獲取焦點引出的DOM、mounted、自定義指令

order spl type bottom fcc auto 表達式 hit 默認一.自動獲取焦點的DOM實現 1 <!DOCTYPE html> 2 <html lang="en"> 3 4 <head>

Zabbix(三)：高級應用之--展示、模版、自定義屬性測試實例

zabbixZabbix的高級應用1.展示接口： (1)graph： simple graph：每個Item對應的展示圖形； custom graph：創建一個融合了多個simple graph的單個graph； (2)screen：把多個custom graph整合於一個屏幕進行展示； (3)

Zabbix(六)：項目實戰之--自動發現nginx調度器及後端web服務集群、自定義參數監控

zabbix 自動發現 nginx項目： 1.自動發現nginx調度器及後端apache構建的web服務集群； 2.使用自定義參數監控調度器上nginx服務的相關統計數據及速率數據； 3.使用自定義參數監控後端apache服務的相關統計數據及速率數據；(選做) 4.制定出nginx調度器及後端apache服務

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

相關推薦