1. 程式人生 > >文本預處理和計算TF-IDF值

文本預處理和計算TF-IDF值

一份 工作 bds doc RM 計算公式 流程 逆向 文章

計算文檔的TF-IDF值

參考鏈接:
英文文本挖掘預處理流程總結,文本挖掘預處理之向量化,文本挖掘預處理之TF-IDF

1.TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率)。

是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降.

上述引用總結就是, 一個詞語在一篇文章中出現次數越多, 同時在所有文檔中出現次數越少, 越能夠代表該文章.

詞頻 (term frequency, TF) 指的是某一個給定的詞語在該文件中出現的次數。這個數字通常會被歸一化(一般是詞頻除以文章總詞數), 以防止它偏向長的文件。(同一個詞語在長文件裏可能會比短文件有更高的詞頻,而不管該詞語重要與否.)

但是, 需要註意, 一些通用的詞語對於主題並沒有太大的作用, 反倒是一些出現頻率較少的詞才能夠表達文章的主題, 所以單純使用是TF不合適的。權重的設計必須滿足:一個詞預測主題的能力越強,權重越大,反之,權重越小。所有統計的文章中,一些詞只是在其中很少幾篇文章中出現,那麽這樣的詞對文章的主題的作用很大,這些詞的權重應該設計的較大。IDF就是在完成這樣的工作.

詞頻的計算公式: 技術分享圖片

逆向文件頻率 (inverse document frequency, IDF) IDF的主要思想是:如果包含詞條t的文檔越少, IDF越大,則說明詞條具有很好的類別區分能力。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到。

公式:技術分享圖片

其中,分子是語料庫中的文件總數,分母是包含詞語的文件數目(即目的文件數目)。如果該詞語不在語料庫中,就會導致分母為零,因此一般情況下分母要+1,即:技術分享圖片

某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向於過濾掉常見的詞語,保留重要的詞語。

公式:技術分享圖片

文本預處理和計算TF-IDF值