TF-IDF提取文章關鍵詞演算法

阿新 • • 發佈：2019-01-12

一、TF-IDF簡介

TF-IDF（terms frequency-inverse document frequency）是一種用於資訊檢索與文字挖掘的常用加權技術。TF-IDF是一種統計方法，用來評估一字詞對於一篇文章的重要程度。一個詞語對一篇文章的重要性主要是依靠它在檔案中出現的次數，如果這個詞語在這篇文章中的出現次數越高，則表明這個詞語對於這篇文章的重要性越高。同時，它還與這個詞語在語料庫中出現的文章篇數有關，隨著出現的篇數越多，則會降低這個詞語在這篇文章中的重要性，具體的演算法請看下面。

二、演算法實現

1、在實現這個演算法之前，我們需要對一篇文章進行分詞，在進行中文分詞的時候，推薦一個python庫，jieba分詞，作者將這個專案釋出到了GitHub上，是開源的，GitHub地址

https://github.com/fxsjy/jieba

2、TF詞頻的計算

詞頻（TF）=某個詞語在文章中的出現次數

由於我們需要考慮不同的文章，長度不同，我們需要將詞頻進行歸一化處理

詞頻（TF）=某個詞語在文章中的出現次數/文章的總詞數 或者 詞頻（TF）=某個詞語在文章中的出現次數/這篇文章出現最多的詞的出現次數

3、IDF的計算

逆文件頻率（IDF）=log（語料庫的文件總數/包含該詞的文件數+1），語料庫可以自己去網上下載，計算逆文件頻率的原因是為了去除哪些經常出現的詞語，比如說，“的”、“我們”、“他”等這類的詞語，這些詞語對於整篇文件重要性不高、但是出現的頻率會比較多，就有可能會影響到我們最後的計算結果，如果是經常出現的詞語就不能作為我們文章的關鍵詞。

4、計算TF-IDF的值

TF-IDF = 詞頻（TF）* 逆文件頻率（IDF）

5、排序

對文章詞語的TF-IDF值進行排序，我們可以選擇提取TF-IDF值比較大的詞語

6、總結

TF-IDF演算法的優點是簡單快速，結果比較符合實際情況。但，TF-IDF演算法是單純的以“詞頻”來衡量一個詞的重要性，就顯得不夠全面，這些詞語就不一定能體現出文章的主要思想突出文章的主題。而且，這種演算法也無法體現出詞語所處的不同位置對於文章的重要性不同，如果想解決這個問題，我們可以採用對於詞語所處的不同位置給他們設定不同的權重。

三、測試案例

下面的例子是使用jieba庫，來實現TF-IDF演算法的，下面是文章的內容

有很多不同的數學公式可以用來計算tf-idf。
這邊的例子以上述的數學公式來計算。
詞頻（tf）是一詞語出現的次數除以該檔案的總詞語數。
假如一篇檔案的總詞語數是100個，而詞語“母牛”出現了3次，
那麼“母牛”一詞在該檔案中的詞頻就是3/100=0.03。
一個計算檔案頻率（DF）的方法是測定有多少份檔案出現過“母牛”一詞，
然後除以檔案集裡包含的檔案總數。所以，如果“母牛”一詞在1,000份檔案出現過，
而檔案總數是10,000,000份的話，其逆向檔案頻率就是log（10,000,000 / 1,000）=4。
最後的tf-idf的分數為0.03 * 4=0.12。

python程式碼

import sys
sys.path.append('../')

import jieba
import jieba.analyse
from optparse import OptionParser

file_name = "../txt/test.txt"

content = open(file_name, 'rb').read()

#10表示輸出的前10個
tags = jieba.analyse.extract_tags(content, topK=10)

print(",".join(tags))

輸出結果

000,檔案,母牛,詞語,tf,詞頻,100,idf,10,0.03

TF-IDF提取文章關鍵詞演算法

TF-IDF提取文章關鍵詞演算法

java tf-idf提取關鍵字

文字挖掘——基於TF-IDF的KNN分類演算法實現

利用資訊熵提取文章關鍵詞

python 基於TF-IDF演算法的關鍵詞提取

關鍵詞提取演算法—TF/IDF演算法

關鍵詞提取/關鍵字提取之TF-IDF演算法

NLP----關鍵詞提取演算法（TextRank,TF/IDF）

解析TF-IDF演算法原理：關鍵詞提取，自動摘要，文字相似度計算

TF-IDF演算法自動提取關鍵詞

基於TF-IDF演算法的短標題關鍵詞提取

TF-IDF與餘弦相似性文字處理：自動提取關鍵詞、找出相似文章

【自然語言處理】TF-IDF演算法提取關鍵詞

自然語言處理——TF-IDF演算法提取關鍵詞

tf-idf關鍵詞提取演算法

自然語言處理--TF-IDF（關鍵詞提取）

關鍵詞抽取演算法介紹：TF-IDF和TextRank

Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字

TF-IDF關鍵詞提取方法的學習

如何用Java實現NLP的經典關鍵詞演算法 TF-IDF

TF-IDF提取文章關鍵詞演算法

相關推薦