1. 程式人生 > >資料探勘 文字分類(七)特徵提取

資料探勘 文字分類(七)特徵提取

        上一篇我們做完了詞頻統計,下面就該提取文字特徵了。其實詞的頻率就是文字最重要的特徵了,但是我們如果只靠詞的頻率去判斷文字的分類的話,顯然正確率是很低的。

        當然,文字的特徵提取有很多辦法了,我上這門課程老師著重介紹的是TF-IDF和卡方校驗兩種。

        我們先來看IF-IDF的計算方法:

                詞頻(term frequency,TF)指的是某一個給定的詞語在該檔案中出現的頻率。

                逆向檔案頻率(inverse document frequency,IDF)。某一特定詞語的IDF,可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取對數得到。

                IDF是一個詞語普遍重要性的度量。

                TF-IDF值即是TF值與IDF值之積。

       TF-IDF綜合表徵了該詞在文件中的重要程度和文件區分度。但在文字分類中單純使用TF-IDF來判斷一個特徵是否有區分度是不夠的。它沒有考慮特徵詞在分類間的分佈。如果一個特徵詞,在各個類間分佈比較均勻,這樣的詞對分類基本沒有貢獻;但是如果一個特徵詞比較集中的分佈在某個類中,而在其它類中幾乎不出現,這樣的詞卻能夠很好代表這個類的特徵,而TF-IDF不能區分這兩種情況。沒有考慮特徵詞在類內部文件中的分佈情況。在類內部的文件中,如果特徵詞均勻分佈在其中,則這個特徵詞能夠很好的代表這個類的特徵,如果只在幾篇文件中出現,而在此類的其它文件中不出現,顯然這樣的特徵詞不能夠代表這個類的特徵。

       再來看卡方檢驗(Chi-square)的計算方法:

          下面子這張圖片來自老師提供的學長的實驗報告:

          根據這兩中演算法,把文字特徵的值計算出來,然後由大到小排序就好了。