Python3——文字標題關鍵字提取_jieba分詞+sklearn計算tf-idf詞語權重

阿新 • • 發佈：2018-12-16

功能：實現文字標題關鍵字的提取

由於jieba自身的jieba.analyse.set_idf_path方法依賴於idf.txt.big的逆文件率語料庫，因此本例採用sklearn轉換詞向量的方法，依靠包含的文件來計算TF-IDF的值。

Step1: 匯入相關工具包

import os
import jieba
import sys
import time
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
sys.path.append("../")
jieba.load_userdict('userdictML.txt')
STOP_WORDS = set(("進展", "研究", "應用", "綜述", "方法", "方式", "問題", "分析", "基於", "論文", "面向", "txt", "."))

Step2: 獲取檔名列表

def getFileList(path):
    filelist = []
    files = os.listdir(path)
    for f in files:
        if f[0] == '.':
            pass
        else:
            filelist.append(f)
    return filelist, path

Step3: 對檔名進行分詞並儲存分詞結果

def fenci(filename, segPath):
    # 儲存分詞結果的資料夾
    if not os.path.exists(segPath):
        os.mkdir(segPath)

    # 對標題進行分詞處理
    seg_list = jieba.cut(filename)
    # 過濾停用詞
    result = []
    for seg in seg_list:
        seg = ''.join(seg.split())
        if len(seg.strip()) >= 2 and seg.lower() not in STOP_WORDS:
            result.append(seg)

    # 將分詞後的結果用空格隔開，儲存至本地
    f = open(segPath + "/" + filename + "-seg.txt", "w+")
    f.write(' '.join(result))
    f.close()

Step4: 用sklearn工具包計算TF-IDF值，排序後按tfidw閾值進行過濾，並儲存關鍵字和TF-IDF值到本地

# 讀取已經分詞好的標題文件。利用sklearn工具包進行TF-IDF計算
def Tfidf(filelist, sFilePath, path, tfidfw):
    corpus = []
    for ff in filelist:
        fname = path + ff
        f = open(fname + "-seg.txt", 'r+')
        content = f.read()
        f.close()
        corpus.append(content)

    vectorizer = CountVectorizer()  # 該類會將文字中的詞語轉換為詞頻矩陣，矩陣元素a[i][j] 表示j詞在i類文字下的詞頻
    transformer = TfidfTransformer()  # 該類會統計每個詞語的tf-idf權值
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))  # 第一個fit_transform是計算tf-idf，第二個fit_transform是將文字轉為詞頻矩陣
    word = vectorizer.get_feature_names()  # 獲取詞袋模型中的所有詞語
    weight = tfidf.toarray()  # 將tf-idf矩陣抽取出來，元素a[i][j]表示j詞在i類文字中的tf-idf權重

    if not os.path.exists(sFilePath):
        os.mkdir(sFilePath)

    for i in range(len(weight)):
        print('----------writing all the tf-idf in the ', i, 'file into ', sFilePath + '/', i, ".txt----------")
        f = open(sFilePath + "/" + str(i) + ".txt", 'w+')
        result = {}
        for j in range(len(word)):
            if weight[i][j] >= tfidfw:
                result[word[j]] = weight[i][j]
        resultsort = sorted(result.items(), key=lambda item: item[1], reverse=True)
        for z in range(len(resultsort)):
            f.write(resultsort[z][0] + " " + str(resultsort[z][1]) + '\r\n')
            print(resultsort[z][0] + " " + str(resultsort[z][1]))
        f.close()

本文對以下標題進行驗證：

執行結果：

D:\PyCharm\PycharmProjects\ML\Scripts\python.exe D:/PyCharm/PycharmProjects/filecutwords.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\sxq\AppData\Local\Temp\jieba.cache
Loading model cost 0.535 seconds.
Prefix dict has been built succesfully.
Using jieba on 基於機器學習特性的資料中心能耗優化方法.txt
Using jieba on 基於深度學習網路的射線影象缺陷識別方法.txt
Using jieba on 大資料下的機器學習演算法綜述.txt
Using jieba on 李群機器學習十年研究進展.txt
Using jieba on 深度學習在手寫漢字識別中的應用綜述.txt
Using jieba on 稀疏學習優化問題的求解綜述.txt
Using jieba on 貝葉斯機器學習前沿進展綜述.txt
Using jieba on 面向自然語言處理的深度學習研究.txt
----------writing all the tf-idf in the  0 file into  ./tfidffile1540195000.2757373/ 0 .txt----------
資料中心 0.493598032622
特性 0.493598032622
能耗 0.493598032622
優化 0.413673674087
機器學習 0.312980890698
----------writing all the tf-idf in the  1 file into  ./tfidffile1540195000.2757373/ 1 .txt----------
影象 0.42551236292
射線 0.42551236292
缺陷 0.42551236292
網路 0.42551236292
識別方法 0.42551236292
深度學習 0.307727387491
----------writing all the tf-idf in the  2 file into  ./tfidffile1540195000.2757373/ 2 .txt----------
資料 0.645220633322
演算法 0.645220633322
機器學習 0.409121826197
----------writing all the tf-idf in the  3 file into  ./tfidffile1540195000.2757373/ 3 .txt----------
十年 0.645220633322
李群 0.645220633322
機器學習 0.409121826197
----------writing all the tf-idf in the  4 file into  ./tfidffile1540195000.2757373/ 4 .txt----------
手寫 0.532774235825
漢字 0.532774235825
識別 0.532774235825
深度學習 0.385298379083
----------writing all the tf-idf in the  5 file into  ./tfidffile1540195000.2757373/ 5 .txt----------
求解 0.608313154613
稀疏學習 0.608313154613
優化 0.509813899232
----------writing all the tf-idf in the  6 file into  ./tfidffile1540195000.2757373/ 6 .txt----------
前沿 0.645220633322
貝葉斯 0.645220633322
機器學習 0.409121826197
----------writing all the tf-idf in the  7 file into  ./tfidffile1540195000.2757373/ 7 .txt----------
處理 0.629565219678
自然語言 0.629565219678
深度學習 0.455296901311

Process finished with exit code 0

Python3——文字標題關鍵字提取_jieba分詞+sklearn計算tf-idf詞語權重

功能：實現文字標題關鍵字的提取由於jieba自身的jieba.analyse.set_idf_path方法依賴於idf.txt.big的逆文件率語料庫，因此本例採用sklearn轉換詞向量的方法，依靠包含的文件來計算TF-IDF的值。 Step1: 匯入相關工具包

文字分析--關鍵詞獲取（jieba分詞器，TF-IDF模型）

關鍵詞獲取可以通過兩種方式來獲取： 1、在使用jieba分詞對文字進行處理之後，可以通過統計詞頻來獲取關鍵詞：jieba.analyse.extract_tags(news, to

機器學習-文字特徵值抽取，中文分詞

在文字特徵值抽取過程中，將用到jieba分詞特點支援三種分詞模式：精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來，速度非常快，但是不能解決歧義。搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高

中文文字的關鍵字提取

基於 TF-IDF 演算法的關鍵詞抽取 import jieba.analyse sentence = "人工智慧（Artificial Intelligence），英文縮寫為AI。它是研究、開發用於模擬、延伸和擴充套件人的智慧的理論、方法、技術及應用系統的一門新的技術科學。人工智慧是

python_scrapy爬蟲_jieba分詞_資料視覺化階段總結報告

第一次寫於 20170328 23：36 寢室序言關鍵詞： python scrapy爬蟲搜狗微信 jieba分詞資料視覺化 wordcloud_plotly 我完成的完整工程檔案：正文這段時間學習的內容就是pytho

Python 文字挖掘：jieba中文分詞和詞性標註

#! /usr/bin/env python2.7 #coding=utf-8 import jieba import jieba.posseg #需要另外載入一個詞性標註模組 string = '其實大家買手機就是看個心情，沒必要比來比去的。' seg = jieba.posseg.cut(string

特徵工程(三):特徵縮放,從詞袋到 TF-IDF

字袋易於生成，但遠非完美。假設我們平等的統計所有單詞，有些不需要的詞也會被強調。在第三章提過一個例子，Emma and the raven。我們希望在文件表示中能強調兩個主要角色。示例中，“Eama”和“raven”都出現了3詞，但是“the”的出現高達8次，“and”出現了次，另外“it”以及“was”也都

情感分析之詞袋模型TF-IDF演算法（三）

在這篇文章中，主要介紹的內容有：1、將單詞轉換為特徵向量2、TF-IDF計算單詞關聯度在之前的文章中，我們已經介紹過一些文字的預處理和分詞。這篇文章中，主要介紹如何將單詞等分類資料轉成為數值格式，以方便我們後面使用機器學習來訓練模型。一、將單詞轉換為特徵向量詞袋模型(bag-

特徵提取-計算tf-idf

用Java實現特徵提取計算tf-idf （1）計算反文件頻次公式如下：（2）計算TF-IDF公式如下： tf-idf=tf*idf （2）Java程式碼實現 package com.panguoyuan.datamining.first; import java.i

SnowNLP：?中文分詞?詞性標準?提取文本摘要,?提取文本關鍵詞,?轉換成拼音?繁體轉簡體的處理中文文本的Python3 類庫

sum 文本分類 idf 區別 xtran 轉換成好的一個 osi SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文的類庫，並且和

python3-對某目錄下的文字檔案分詞

from pathlib import Path import os import re pathName='./' fnLst=list(filter(lambda x:not x.is_dir(),Path(pathName).glob('**/*.txt'))) print(fnLst) for fn

hanlp中文智慧分詞自動識別文字提取例項

需求：客戶給銷售員自己的個人資訊，銷售幫助客戶下單，此過程需要銷售人員手動複製貼上收穫地址，電話，姓名等等，一個智慧的分詞系統可以讓銷售人員一鍵識別以上各種資訊經過調研，找到了一下開源專案 1、word 分詞器 2、ansj 分詞器 3、mmseg4j 分詞器 4、ik-analy

Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字

參考文章：Github上的專案———jieba 中文分詞對於NLP（自然語言處理）來說，分詞是一步重要的工作，市面上也有各種分詞庫，11款開放中文分詞系統比較。 1.基於詞典：基於字典、詞庫匹配的分詞方法；（字串匹配、機械分詞法） 2.基於統計：基於詞頻度統計的分詞方法；&n

hanlp中文分詞、提取摘要關鍵字、語句分析、智慧推薦

hanlp資源： hanlp介紹：http://hanlp.linrunsoft.com/ hanlp下載：https://github.com/hankcs/HanLP hanlp(分詞)使用：https://blog.csdn.net/nima1994/article/details

用python3 SVM訓練測試預測文字摘要（中文）（分句，分詞，詞典，詞袋，測試建模，預測）

使用SVM 訓練和預測，需要正確的資料： X：儲存特徵。可以是二維矩陣，如：[ [c1 ,c2, c3…] ,[…],…];也可以是這樣的形式[{a1:c1,a2:c2,a3:c3…},{…} …],c1,c2…表示特徵值a1,a2,a3…表示詞位置（詞在le

Tika提取pdf文字的內容，並用IKAnalyzer進行分詞處理。

package test; import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import org.apache.tika.metadata.Metadata;

利用java實現對文字的去除停用詞以及分詞處理

功能：對txt文件進行分詞處理，並去除停用詞。工具： IDEA，java，hankcs.hanlp.seg.common.Term等庫。程式： import java.util.*; import java.io.*; import java.lang.String; imp

文字挖掘----基於OCR的文件關鍵字提取

前言緊急新增：有人反饋看不懂。那是因為沒有看姐妹篇，《你有沒有想到，這樣的觀點挖掘引擎？》。請先閱讀本文，再繼續看下去！做了一段時間的OCR，把大量的圖片、PDF處理成了文字。請注意：這些文字在網際網路上屬於稀有資源。這些文字以前都放在一個盒子裡，如今，用OCR做鑰匙開

基於java版jieba分詞實現的tfidf關鍵詞提取

基於java版jieba分詞實現的tfidf關鍵詞提取文章目錄基於java版jieba分詞實現的tfidf關鍵詞提取為了改善我的個性化新聞推薦系統的基於內容相似度的推薦演算法效果，我嘗試找尋關鍵詞提取效果可能優於本來使用的ansj的tfi

python3-對某目錄下的文本文件分詞

dynamic rom help any end eal txt orm script from pathlib import Path import os import re pathName=‘./‘ fnLst=list(filter(lambda x:not x.i

Python3——文字標題關鍵字提取_jieba分詞+sklearn計算tf-idf詞語權重

相關推薦