1. 程式人生 > >NLP ---文字情感分析

NLP ---文字情感分析

前面幾節我們詳細的研究了文字分析的相關演算法,本節將簡單介紹一下基於文字的情感分析方面的內容,本節更多是論述方面的內容,這個方向的演算法基本都是我們前面學過的,原理就不詳細的講解了,如果有感興趣的朋友可以自行查閱資料進行研究,這裡就不在詳細的講解了,以後如果工作中遇到相關的在詳細的研究一下,下面正式開始本節的內容:

情感分析簡述

文字情感分析(Sentiment Analysis)是指利用自然語言處理和文字挖掘技術,對帶有情感色彩的主觀性文字進行分析、處理和抽取的過程[1]。目前,文字情感分析研究涵蓋了包括自然語言處理、文字挖掘、資訊檢索、資訊抽取、機器學習和本體學等多個領域,得到了許多學者以及研究機構的關注,近幾年持續成為自然語言處理和文字挖掘領域研究的熱點問題之一。情感分析任務按其分析的粒度可以分為篇章級,句子級,詞或短語級;按其處理文字的類別可分為基於產品評論的情感分析和基於新聞評論的情感分析;按其研究的任務型別,可分為情感分類,情感檢索和情感抽取等子問題[2]。文字情感分析的基本流程如圖 1 所示,包括從原始文字爬取,文字預處理,語料庫和情感詞庫構建以及情感分析結果等全流程。由於文字原始素材爬取,分詞等預處理技術已比較成熟,本文接下來將通過情感分析的主要任務情感分類,情感檢索,情感抽取問題來分析和闡述已有的相關研究工作。

情感分類

情感分類又稱情感傾向性分析,是指對給定的文字,識別其中主觀性文字的傾向是肯定還是否定的,或者說是正面還是負面的,是情感分析領域研究最多的。通常網路文字存在大量的主觀性文字和客觀性文字。客觀性文字是對事物的客觀性描述,不帶有感情色彩和情感傾向,主觀性文字則是作者對各種事物的看法或想法,帶有作者的喜好厭惡等情感傾向。情感分類的物件是帶有情感傾向的主觀性文字,因此情感分類首先要進行文字的主客觀分類。文字的主客觀分類主要以情感詞識別為主,利用不同的文字特徵表示方法和分類器進行識別分類,對網路文字事先進行主客觀分類,能夠提高情感分類的速度和準確度[3]。縱觀目前主觀性文字情感傾向性分析的研究工作,主要研究思路分為基於語義的情感詞典方法和基於機器學習的方法。

基於語義的情感詞典方法

(1) 構建詞典

情感詞典的構建是情感分類的前提和基礎,目前在實際使用中,可將其歸為 4 類:通用情感詞、程度副詞、否定詞
、領域詞。目前國內外,情感詞典的構建方法主要是利用已有電子詞典擴充套件生成情感詞典。英文方面主要是基於對英文詞典 的Word  Net 的擴充,Hu 和 Liu[4]在已手工建立種子形容詞詞彙表的基礎上,利用 World Net 中詞間的同義和近義關係判斷情感詞的情感傾向,並以此來判斷觀點的情感極性。中文方面則主要是對知網 How net 的擴充,朱嫣嵐[5]利用語義相似度計算方法計算詞語與基準情感詞集的語義相似度,以此推斷該詞語的情感傾向。此外,還可以建立專門的領域詞典,以提高情感分類的準確性。

(2)構建傾向性計算演算法

基於語義的情感詞典的傾向性計算不同於所需大量訓練資料集的機器學習演算法,主要是利用情感詞典及句式詞庫分析文字語句的特殊結構及情感傾向詞,採用權值演算法代替傳統人工判別或僅利用簡單統計的方法進行情感分類。給情感強度不同的情感詞賦予不同權值,然後進行加權求和。文獻[6]利用加權平均演算法式(1)計算,可有效提高通用領域情感分類的效率和準確率

其中,\large N_p,N_n分別代表表達正面情感和負面情感的詞彙數目;\large wp_i,wp_j分別代表正面情感詞彙和負面情感詞彙的權值。

(3)確定閾值來判斷文字傾向性

一般情況下,加權計算結果為正是正面傾向,結果為負是負面傾向 ,得分為零無傾向。所得結果評價一般採用自然語言中
經常使用的正確率、召回率和 F 值來評判演算法效果。
基於情感詞典的方法和基於機器學習的分類演算法相比,雖屬於粗粒度的傾向性分類方法,但由於不依賴標註好的訓練集,實現相對簡單,對於普遍通用領域的網路文字可有效快速地進行情感分類。

基於機器學習的情感分類方法

文字情感傾向性分析與傳統的基於主題的文字分類相似但有所不同,基於主題的文字分類是把文字分類到各個預定義的主題上,如軍事,網際網路,政治,體育等,而情感分類不是基於內容本身的,而是按照文字持有的情感、態度進行判斷。現有任何機器學習的分類方法都可以用到情感分類中來。基於機器學習的情感分類,其大致流程如下:首先人工標註文字傾向性作為訓練集,提取文字情感特徵,通過機器學習的方法構造情感分類器,待分類的文字通過分類器進行傾向性分類。常用的情感分類特徵包括情感詞,詞性,句法結構,否定表達模板,連線,語義話題等[7],研究者通過挖掘各種不同的特徵以期望提高情感分類的能。常用的特徵提取方法有資訊增益( Information Gain,IG),CHI 統計量( Chi - square,CHI) 和文件頻率( Document Frequency,DF) 等。常用的分類方法有中心向量分類方法、K - 近鄰(K - Nearest - Neighbor,KNN) 分類方法、貝葉斯分類器、支援向量機、條件隨機場、最大熵分類器等。
最早從事情感分析研究的 Pang 等人[8]使用詞袋(Bag - of - Feature) 框架選定文字的 N 元語法( N -Gram) 和詞性( POS) 等作為情感 uo 特徵,使用有監督的機器學習的方法將電影評論分為正向和負向兩類,分別使用樸素貝葉斯,最大熵模型和支援向量機作為有監督學習演算法的分類器。結果顯示支援向量機在幾種分類方法中效果最好,分類準確率達到 80% 。文字情感分類的準確率難以達到普通文字分類的水平,主要是情感文字中複雜的情感表達和大量的情感歧義造成的。在基於機器學習的情感分類演算法中,每篇文章被轉換成一個對應的特徵向量來表示。特徵選擇的好壞將直接影響情感分析任務的效能。在 Pang 等人的研究基礎上,後續研究主要是把情感分類作為一個特徵優化任務[9- 11]。隨著語義特徵資訊的加入和訓練語料庫的發展,基於機器學習的分類將會有廣闊的發展前景。

情感檢索

情感檢索是從海量文字中查詢到觀點資訊,根據主題相關度和觀點傾向性對結果排序。情感檢索返回的結果要同時滿足主題相關和帶有情感傾向或指定的情感傾向,是比情感分類更為複雜的任務。主題相關度和觀點傾向性對結果排序,隨著人們網路檢索需求的增高,在傳統搜尋中加入情感傾向成了搜尋技術中一個新的研究熱點。和傳統的網際網路搜尋相似,情感檢索有兩個主要任務:(1) 檢索和查詢相關的文件或句子。(2)對檢索的相關文件或句子進行排序。與傳統搜尋不同的是網際網路搜尋的任務只要求找到和查詢相關的文件和句子,而情感檢索還要確定文件和句子是否表達了觀點,以及觀點是正面的或是負面的。目前情感檢索主要實現方法有兩種:一是按傳統資訊檢索模型進行主題相關的文件檢索,對檢索結果進行情感分類;另一種是同時計算主題相關值和情感傾向值進行檢索。第一種方法一般使用傳統的檢索模型以及較為成熟的查詢擴充套件技術,然後用情感分類方法進行傾向性計
算。文獻[12 ~ 13]給出的情感檢索系統是國際文字檢索會議 TREC(Text Retrieval Evaluation Conference)部落格觀點搜尋任務的優勝者,該系統分為兩部分檢索部分和觀點分類部分。檢索部分完成傳統的資訊檢索任務,同時在處理使用者查詢時將使用者查詢中的概念進行識別和消歧義,對於每個搜尋查詢進行同義詞擴充套件,使用概念和關鍵字針對擴充套件後的查詢對每個文件計算一個相似度,查詢的關鍵字和文件的相關度是這兩種相似度的綜合。觀點分類部分使用監督學習的方法使用兩個分類器將文件分為兩個類別帶觀點和不帶觀點的,帶觀點的文件再分為正面,負面或者混合的觀點。第一個分類器訓練資料是從評價網站包括 rateilt-
all. com 和 epinion. com 收集大量帶觀點的資料和從維基百科等客觀性網站收集不帶觀點的訓練資料。第二個分類器訓練資料來自評論網站包含打分的評論,低的打分表明負面觀點,高的打分表明正面觀點。這裡兩種監督學習的分類器都採用支援向量機。在 TREC部落格檢索資料集研究的基礎上,研究者採用不同的情感分類方法開展了後續研究[14 - 16]。

上面的方法是將檢索和情感分類獨立計算的,實際中主題相關和情感匹配是有關聯的,需要同時計算主題相關和情感匹配,這是因為不同的情感詞在文件中對不同的查詢詞下可能有相反的情感傾向。第二種方法則是同時考慮主題相關和情感文件排序,選擇排序策略時需要同時兼顧。很多學者[17 - 18]對排序策略進行了研究,一般是分別計算情感傾向值和查詢相關度值,然後加權求和進行排序。Zhang 等人[19]提出一種融合文件情感得分和文件查詢相關度得分的概率生成模型排序方法,取得了理想的效果。
情感資訊檢索是傳統資訊檢索技術和情感分析技術的融合,如何更好的融合二者得到理想的情感檢索結果是未來要重點關注的。

情感抽取

情感抽取是指抽取情感文字中有價值的情感資訊,其要判斷一個單詞或片語在情感表達中扮演的角色,包括情感表達者識別,評價物件識別,情感觀點詞識別等任務。情感表達者識別又稱觀點持有者抽取,其是觀點、評論的隸屬者。在社交媒體和產品評論中,觀點持有者通常是文字的作者或者評論員,其的登入賬號是可見的,觀點持有者抽取比較簡單。而對於新聞文章和其他一些表達觀點的任務或者組織顯式的出現在文件時,觀點持有者一般則是由機構名或人名組成,所以可採用命名實體識別方法進行抽取。Kim[20]等人藉助語義角色標註來完成觀點持有者的抽取。然而這些處理方法會導致較低的語言覆蓋現象和較差的領域適應性,可以通過基於模式識別的資訊抽取 ( Information Extraction) 和 機 器 學 習 ( Machine Learning )技 術 來解決[21]。評價物件和情感詞抽取在情感分析中具有重要作用。利用評價物件和情感詞的抽取,可以構建領域相關的主題詞表和情感詞表,情感詞表的構建在情感分類部分已做闡述。評價物件是指某段評論中的主題,是評論文字中評價詞語修飾的物件,現有的研究大多
將評價物件限定在名詞或名詞短語的範疇內,一般使用基於模板和規則的方法抽取評價物件。規則的制定通常基於一系列的語言分析和預處理過程,命名實體識別,詞性標註和句法分析等方法[22 - 25]都被用來進行評價物件抽取。文獻[26]便是使用 3 條限制等級逐漸漸進的詞性規則從評價物件集中抽取評價物件,取得了較好的結果。
情感抽取是情感分析的基礎任務,通過對大量的情感文字分析,有價值的情感資訊抽取對於情感分析的上層任務情感檢索和情感分類有直接幫助,如何準確抽取情感資訊一直都是研究者關注的重點。

文字情感分析評測

近年來,情感分析得到了越來越多研究機構和學者的關注,在 SIGIR、ACL、WWW、CIKM、WSDM 等著名國際會議上,針對這一問題的研究成果層出不窮[27],國內外研究機構組織了眾多相關評測來推動情感分析技術的發展。

由國際文字檢索會議 TREC 針對英文文字觀點檢索任務的部落格檢索任務(Blog Track),篇章情感分類任務,以及其他一些有趣的情感分析任務;由日本國立資訊學研究所主辦的搜尋引擎評價國際會議 NTCIR(NIITest Collection for IR Systems) 針對日、韓、英、中文文字的情感分類以及觀點持有者抽取任務。由中文資訊學會資訊檢索委員會主辦的每年一次的中文傾向性分析評測 C
OAE(Chinese Opinion Analysis Evaluation) 已舉辦了 5 屆,在關注情感詞語和觀點句子的抽取以及傾向性識別的基礎上重點對於否定句、比較句以及微博觀點句進行評測[28]。眾多研究機構的評測推動了情感分析研究的發展,出現了很多有代表性的情感分析語料庫資源,文獻[29 ~ 30]對語料庫構建進行了詳細闡述,如康奈爾影評資料集(Cornell Movie - Review Datasets),多視角問答( Multiple - Perspective Question Answering,MPQA)語料庫,TREC 測試集,NTCIR 多語言語料庫(
 NTCIRmultilingual corpus),中文 COAE 語料庫等。

參考文獻

[1] PANG B,LEE L. Opinion mining and sentiment analysis[J].Foundations and Trends in InformationRetrieval,2008,2 (1 -2) :130 - 135.
[2] 趙妍妍,秦兵,劉挺,等. 文字傾向性分析[J]. 軟體學報,2010,21(8) :1834 - 1848.
[3] 厲小軍,戴霖,施寒瀟,等. 文字傾向性分析綜述[J]. 浙江大學學報,2011,45(7):1167 - 1175.
[4] HU M,LIU B. Mining and summarizing customer reviews[C]. NY,USA:Proceedings of Knowledge Discoveryand Da-ta Mining,2004:168 - 177.
[5] 朱嫣嵐,閔錦,周雅倩,等. 基於 How Net 的詞彙語義傾向計算[J]. 中文資訊學報,2006,20(1):14 - 20.
[6] 張昊旻,石博瑩,劉栩巨集. 基於權值演算法的中文情感分析系統研究與實現[J]. 計算機應用研究,201229 (12):4571 - 4573.

[7] 李方濤. 基於產品評論的情感分析研究[D]. 北京:清華大學,2011.

[8] PANG B,LEE L,VAITHYANATHAN S. Thumbs up:senti-ment classification using machine learning techniques [
C].PA,USA:Proceedings of the ACL - 02 Conference on Empir-ical methods in natural language processing - Volume 10,Stroudsburg,Association for Computational Linguistics,2002:79 - 86.
[9] MELVILLE P,GRYC W,LAWRENCE. Sentiment analysis ofblogs by combining lexical knowledge with text classification[C]. New York:Proceedings of SIGKDD,ACM,2009.
[10] LI S,HUANG C,ZHOU G. Employing personal impersonal viewsin supervised and semisupervised sentiment classification [C].New York:Proceedings of ACL,ACM,2010:414 - 423.
[11] KUMAR A,SEBASTIAN T M. Sentiment analysis on twitter[J]. International Journal of Computer ScienceIssues,2012,9(4) :628 - 633.
[12] ZHANG W,YU C,MENG W. Opinion retrieval from blogs[C]. Proceedings of the Sixteenth ACM Conferenceon Con-ference on Information and Knowledge Management,ACM,2007:831 - 840.
[13] ZHANG W,JIA L,YU C,et al. Improve the effectiveness ofthe opinion retrieval and opinion polarity classification [C].MA USA:Proceedings of the 17th ACM Conference on Infor-mation and Knowledge Management,ACM,2008:1415 - 1416.

主要參考了:文字情感分析研究綜述  馬 力1,宮玉龍2