1. 程式人生 > >【論文閱讀】《Delta TFIDF:An Improved Feature Space for Sentiment Analysis》(論文及實驗)

【論文閱讀】《Delta TFIDF:An Improved Feature Space for Sentiment Analysis》(論文及實驗)

Delta TFIDF

論文中提出了一種在文字分類之前給單詞加權的計算方法,並使用SVM對三個資料集進行情感分析。

方法

在詞袋模型中,每一個單詞或者n-gram字都與一個值相關聯。這些值通常都是文件中的數字。有時這些值會根據其對應單詞在文件中的統計特徵來進一步加權。相反,我們通過這些詞在不同語料庫中的出現情況來衡量它的值。

本方法通過計算某單詞在正負語料庫的TFIDF得分差異來為文件分配特徵值。
給定:

  • C t , d
    是單詞 t 在文件
    d
    中出現的次數。
  • P t 是正訓練語料中包含單詞
    t
    的文件數量。
  • | P | 是正訓練語料總數。
  • N t 是負訓練語料中包含單詞 t 的文件數量。
  • | N | 是負訓練語料總數。
  • V t , d 是單詞 t 特徵值在文件 d 中的特徵值。

因此訓練集中每個詞的特徵值可以寫為:

V t , d = C t , d l o g 2 ( | P | P t ) C t , d l o g 2 ( | N | N t ) = C t , d l o g 2 ( | P | P t N t | N | ) = C t , d l o g 2 ( N t P t )

這種詞頻轉換方法提高了在正負樣本之間分佈不均勻的單詞的重要性,並降低了均勻分佈的單詞的值,從而更好滴獲得它們對情感的重要程度。
其中,均勻分佈的特徵值應為0,分佈越是不均勻的單詞,其重要程度越高。有明顯正向特徵的詞將具有正數分,有負向特徵的分數將具有負分。

實驗

結合論文中提出的方法,我在LMDB資料集上進行了實驗(一個大型電影評論資料集,包含50k全長評論(Maas et al., 2011)),使用word2vec獲得詞向量,通過Delta TFIDF對每個詞向量進行加權,求和形成每個文件的特徵向量。使用神經網路對文字進行情感分類。

method precision recall f1-score
tfidf 0.784 0.784 0.784
idf 0.825 0.825 0.825
Delta-tfidf 0.877 0.877 0.877

可以看到Delta-tfidf與tfidf、idf相比,在效能上有了明顯的提升。

【參考文獻】
Martineau J, Finin T. Delta TFIDF: An Improved Feature Space for Sentiment Analysis[C]// International Conference on Weblogs and Social Media, Icwsm 2009, San Jose, California, Usa, May. DBLP, 2009.