1. 程式人生 > >python資料探勘實戰筆記——文字分析(6):關鍵詞提取

python資料探勘實戰筆記——文字分析(6):關鍵詞提取

緊接上篇的文件,這節學習關鍵字的提取,關鍵詞——keyword,是人們快速瞭解文件內容,把握主題的重要內容。

#匯入需要的模組
import os
import codecs
import pandas
import jieba
import jieba.analyse
#搭建語料庫
for root, dirs, files in os.walk(
    r"C:\Users\www12\Desktop\data\2.6\SogouC.mini\\Sample\\"
):
    for name in files:
        filePath = root + '\\' + name;
        f = codecs.open(filePath, 'r', 'utf-8')
        content = f.read().strip()
        f.close()#讀取檔案內容
        tags = jieba.analyse.extract_tags(content, topK=5)#獲取每篇文字詞頻在前五的關鍵詞
        filePaths.append(filePath)
        contents.append(content)

關鍵字提取: tags = jieba.analyse.extract_tags(content, topK=n) 引數: content:文章內容 topK=n:n個關鍵詞

        tag1s.append(tags[0])#陣列提取對應的關鍵詞
        tag2s.append(tags[1])
        tag3s.append(tags[2])
        tag4s.append(tags[3])
        tag5s.append(tags[4])
#關鍵詞陣列新增至資料框
tagDF = pandas.DataFrame({
    'filePath': filePaths, 
    'content': contents, 
    'tag1': tag1s, 
    'tag2': tag2s, 
    'tag3': tag3s, 
    'tag4': tag4s, 
    'tag5': tag5s
})

提取完成,結果如圖: 在這裡插入圖片描述