1. 程式人生 > >情感分析簡述

情感分析簡述

lin cli 上下 指導 評論 限制 sub graph richard

情感分析,我研究了也有半年有余了,號稱看遍ACL上關於情感分析的論文,但是到目前還沒有什麽成就的。以下是我為一位同學畢業設計寫的情感分析方面的綜述,引用的論文基本上是ACL和COLING還有EMNLP上歷年關於情感分析的論文,本文應該學術性比較強一點,本文雖不打算發表,但由於將來可能還有用,以及關於學術上的原因,請大家如果要引用請務必標明出處(http://blog.sina.com.cn/s/blog_48f3f8b10100irhl.html)。

概述

情感分析自從2002年由Bo Pang提出之後,獲得了很大程度的研究的,特別是在在線評論的情感傾向性分析上獲得了很大的發展,目前基於在線評論文本的情感傾向性分析的準確率最高能達到90%以上,但是由於深層情感分析必然涉及到語義的分析,以及文本中情感轉移現象的經常出現,所以基於深層語義的情感分析以及篇章級的情感分析進展一直不是很大。情感分析還存在的一個問題是尚未存在一個標準的情感測試語料庫,雖然Bo Pang實驗用的電影評論數據集(http://www.cs.cornell.edu/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(http://www.cs.pitt.edu/mpqa/)是目前廣泛使用的兩類情感分析數據集,但是並沒有公認的標準加以確認。

目前情感分析的研究基本借鑒文本分類等機器學習的方法,還沒有根據自身的特點形成一套獨立的研究方法,當然在某種程度上也可以把情感分析看出一種特殊的文本分類。比較成熟的方法是基於監督學習的機器學習方法,半監督學習和無監督學習目前的研究不是很多,單純的基於規則的情感分析這兩年已很少研究了。既然目前很多情感分析的研究基於機器學習,那麽特征選擇就是一個很重要的問題,N元語法等句法特征是使用最多的一類特征,而語義特征(語義計算)和結構特征(樹核函數)從文本分類的角度看效果遠沒有句法特征效果好,所以目前的研究不是很多的。

由於基於監督學習情感分析的研究已經很成熟了,而且在真實世界中由於測試集的數量要遠遠多於訓練集的數量,並且測試集的領域也不像在監督學習中被限制為和訓練集一致,也就是說目前情感分析所應用的歸納偏置假設在真實世界中顯得太強的,為了和真實世界相一致,基於半監督學習或弱指導學習的情感分析和跨領域的情感分析勢必是將來的研究趨勢之一。

在情感分析的最初階段基於語義和基於規則的情感分析曾獲得了比較大的重視,但是由於本身實現的復雜性以及文本分類和機器學習方法在情感分析應用上獲得的成功,目前關於這方面的研究以及很少了,但是事實上,語義的相關性和上下文的相關性正是情感分析和文本分類最大的不同之處,所以將基於語義和規則的情感分析與基於機器學習的情感分析相結合也將是未來的研究趨勢之一。

以下將分別對情感分析的起源,目前基於監督學習,無監督學習,基於規則和跨領域的情感分析的一些研究工作進行簡單的介紹。

起源

雖然之前也有一些相關工作,但目前公認的情感分析比較系統的研究工作開始於(Pang et al., 2002)基於監督學習(supervised learning)方法對電影評論文本進行情感傾向性分類和(Turney,2002)基於無監督學習(unsupervised learning)對文本情感情感傾向性分類的研究。(Pang et al., 2002)基於文本的N元語法(ngram)和詞類(POS)等特征分別使用樸素貝葉斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量機(Support Vector Machine,SVM)將文本情感傾向性分為正向和負向兩類,將文本的情感進行二元劃分的做法也一直沿用至今。同時他們在實驗中使用電影評論數據集目前已成為廣泛使用的情感分析的測試集。(Turney ,2002)基於點互信息(Pointwise Mutual Information,PMI)計算文本中抽取的關鍵詞和種子詞(excellent,poor)的相似度來對文本的情感傾向性進行判別(SO-PMI算法)。

在此之後的大部分都是基於(Pang et al., 2002)的研究。而相對來說,(Turney et al.,2002)提出的無監督學習的方法雖然在實現上更加簡單,但是由於單詞之間的情感相似度難以準確的計算和種子詞的難以確定,繼續在無監督學習方向的研究並不是很多的,但是利用SO-PMI算法計算文本情感傾向性的思想卻被很多研究者所繼承了。

監督學習

目前,基於監督學習的情感分析仍然是主流,除了(Li et al.,2009)基於非負矩陣三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基於遺傳算法(Genetic Algorithm)的情感分析之外,使用的最多的監督學習算法是樸素貝葉斯,k最近鄰(k-Nearest Neighbor,k-NN),最大熵和支持向量機的。而對於算法的改進主要在對文本的預處理階段。

一個和文本分類不同地方就是情感分析有時需要提取文本的真正表達情感的句子。(Pang et al., 2004)基於文本中的主觀句的選擇和(Wilson el al.,2009)基於文本中的中性實例(neutral instances)的分析,都是為了能夠盡量獲得文本中真正表達情感的句子。(Abbasi et al.,2008)提出通過信息增益(Information Gain,IG)的方法來選擇大量特征集中對於情感分析有益的特征。

而對於特征選擇,除了N元語法和詞類特征之外,(Wilson el al.,2009)提出混合單詞特征,否定詞特征,情感修飾特征,情感轉移特征等各類句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元語法,詞類,標點)和結構特征(單詞的長度,詞類中單詞的個數,文本的結構特征等)的情感分析。

除了對於文本的預處理,對於監督學習中情感分析還進行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出結合情感詞的先驗的基於詞典的情感傾向性和訓練文本中後驗的基於上下文的情感情感傾向性共同判斷文本的情感傾向性。(Taboada et al.,2009)提出結合文本的題材(描述,評論,背景,解釋等)和文本本身的特征共同判斷文本的情感傾向性。(Tsutsumi et al.,2007)提出利用多分類器融合技術來對文本情感分類。(Wan, 2008)和(Wan, 2009)提出結合英文中豐富的情感分析資源來提高中文情感分析的效果。

基於規則/無監督學習

和基於監督學習的情感分析相比,基於規則和無監督學習方面的研究不是很多。除了(Turney,2002)之外,(朱嫣嵐 et al.,2002)利用HowNet對中文詞語語義的進行了情感傾向計算。(婁德成 et al.,2006)利用句法結構和依存關系對中文句子語義進行了情感分析,(Hiroshi et al.,2004)通過改造一個基於規則的機器翻譯器實現日文短語級情感分析,(Zagibalov et al.,2008)在(Turney,2002)的SO-PMI算法的基礎上通過對於中文文本特征的深入分析以及引入叠代機制從而在很大程度上提高了無監督學習情感分析的準確率。

跨領域情感分析

跨領域情感分析在情感分析中是一個新興的領域,目前在這方面的研究不是很多,主要原因是目前的研究還沒有很好的解決如何尋找兩個領域之間的一種映射關系,或者說如何尋找兩個領域之間特征權值之間的平衡關系。對於跨領域情感分析的研究開始於(Blitzer et al.,2007)將結構對應學習(Structural Correspondence Learning,SCL)引入跨領域情感分析,SCL是一種應用範圍很廣的跨領域文本分析算法,SCL的目的是將訓練集上的特征盡量對應到測試集中。(Tan et al.,2009)將SCL引入了中文跨領域情感分析中。(Tan2 et al.,2009)提出將樸素貝葉斯和EM算法的一種半監督學習方法應用到了跨領域的情感分析中。(Wu et al.,2009)將基於EM的思想將圖排序(Graph Ranking)算法應用到跨領域的情感分析中,圖排序算法可以認為是一種叠代的k-NN算法。

從目前的研究可以看出,跨領域的情感分析主要問題在於尋找兩個領域之間的一種映射關系,但是這樣的映射關系或者很難尋找,或者需要相當強的數學證明。所以很多研究借用半監督學習的方法,通過逐次叠代逐漸減少訓練集和測試集之間的差異。

參考文獻:

[1]Xiaojun Wan.Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis.Proceedings of EMNLP-08,553-561

[2]Xiaoun Wan.Co-Training for Cross-Lingual Sentiment Classification.Proceedings of ACL-09,234-243

[3]Theresa Wilson,Janyce Wiebe,Paul Hoffmann. Recognizing Contextual Polarity: An Exploration of Features for Phrase-Level. Computer Linguistics,25(3),399-433

[4]Ahmed Abbasi,Hsinchun Chen,Arab,Salem.Sentiment Analysis in Multiple Languages:Feature Selection for Opinion Classification in Web Forums.ACM Transaction on Information Systems,26(3),12:1-12:34

[5]Prem Melville,Wojciech Gryc,Richard D.Larence.Sentiment Analysis Of Blogs by Combining Lexical Knowledge with Text Classification.Proceedings of KDD-09,1275-1283

[6]KANAYAMA Hiroshi,NASUKAWA Tetsuya,WATANBE Hideo.Deep Sentiment Analysis Using Machine Translation Technology.Proceedings of Coling -04

[7]Maite Taboada,Julian Brooke,Manfred Stede.Genre-Based Paragraph Classification for Sentiment Analysis.Proceedings of SIGDIAL-09,62-70

[9]Taras Zagibalov,John Carroll.Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Text.Proceedings of Coling-08,1073-1080

[10]Bo Pang,Lillian Lee.A Sentimental Education:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts.Proceedings of ACL-04

[11]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?Sentiment Classification using Machine Learning Techniques.Proceedings of EMNLP-02,79-86

[12]Peter D. Turney.Thumbs Up or Thumbs Down?Senmantic Orientition Applied to Unsupervised Classification of Reviews.Proceedings of ACL-02,417-424

[13]Kimitaka Tsutsumi, Kazutaka Shimada,Tsutomu Endo. Movie Review Classification Based on a Multiple Classifier. Proceedings of the 21st Pacific Asia Conference on Language, Information and Computation (PACLIC21), 481-488

[14]John Blitzer,Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders:Domain Adaptation for Sentiment Classification. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 440–447

[15]Songbo Tan,Xueqi Cheng. Improving SCL Model for Sentiment-Transfer Learning. Proceedings of NAACL HLT 2009: Short Papers, 181–184

[16]Songbo Tan, Xueqi Cheng, Yuefen Wang, Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis. ECIR 2009,337–349

[17]Qiong Wu,Songbo Tan,Xueqi Cheng. Graph Ranking for Sentiment Transfer. Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, 317–320

[18]Tao Li Ti Zhang,Vikas Sindhwani.A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge.Proceeding of ACL-09,244-252

[19]婁德成,姚天妨.漢語與子語義極性分析和觀點抽取方法的研究.計算機應用,2006,26(11),2622-2625

[20]朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德. 基於HowNet的詞匯語義傾向計算. 中文信息學 報,2006,20(1),14-20

轉自: http://blog.sina.com.cn/s/blog_48f3f8b10100irhl.html

情感分析簡述