1. 程式人生 > >情感分析的新方法

情感分析的新方法

       情感分析是一種常見的自然語言處理(NLP)方法的應用,特別是在以提取文字的情感內容為目標的分類方法中。通過這種方式,情感分析可以被視為利用一些情感得分指標來量化定性資料的方法。儘管情緒在很大程度上是主觀的,但是情感量化分析已經有很多有用的實踐,比如企業分析消費者對產品的反饋資訊,或者檢測線上評論中的差評資訊。
       最簡單的情感分析方法是利用詞語的正負屬性來判定。句子中的每個單詞都有一個得分,樂觀的單詞得分為 +1,悲觀的單詞則為 -1。然後我們對句子中所有單詞得分進行加總求和得到一個最終的情感總分。很明顯,這種方法有許多侷限之處,最重要的一點在於它忽略了上下文的資訊。例如,在這個簡易模型中,因為“not”的得分為 -1,而“good”的得分為 +1,所以片語“not good”將被歸類到中性片語中。儘管片語“not good”中包含單詞“good”,但是人們仍傾向於將其歸類到悲觀片語中。
       另外一個常見的方法是將文字視為一個“詞袋”。我們將每個文字看出一個1xN的向量,其中N表示文字詞彙的數量。該向量中每一列都是一個單詞,其對應的值為該單詞出現的頻數。例如,片語“bag of bag of words”可以被編碼為 [2, 2, 1]。這些資料可以被應用到機器學習分類演算法中(比如羅吉斯迴歸或者支援向量機),從而預測未知資料的情感狀況。需要注意的是,這種有監督學習的方法要求利用已知情感狀況的資料作為訓練集。雖然這個方法改進了之前的模型,但是它仍然忽略了上下文的資訊和資料集的規模情況。

Word2Vec 和 Doc2Vec
最近,谷歌開發了一個叫做 Word2Vec 的方法,該方法可以在捕捉語境資訊的同時壓縮資料規模。Word2Vec實際上是兩種不同的方法:Continuous Bag of Words (CBOW) 和 Skip-gram。CBOW的目標是根據上下文來預測當前詞語的概率。Skip-gram剛好相反:根據當前詞語來預測上下文的概率(如圖 1 所示)。這兩種方法都利用人工神經網路作為它們的分類演算法。起初,每個單詞都是一個隨機 N 維向量。經過訓練之後,該演算法利用 CBOW 或者 Skip-gram 的方法獲得了每個單詞的最優向量。


 
       現在這些詞向量已經捕捉到上下文的資訊。我們可以利用基本代數公式來發現單詞之間的關係(比如,“國王”-“男人”+“女人”=“王后”)。這些詞向量可以代替詞袋用來預測未知資料的情感狀況。該模型的優點在於不僅考慮了語境資訊還壓縮了資料規模(通常情況下,詞彙量規模大約在300個單詞左右而不是之前模型的100000個單詞)。因為神經網路可以替我們提取出這些特徵的資訊,所以我們僅需要做很少的手動工作。但是由於文字的長度各異,我們可能需要利用所有詞向量的平均值作為分類演算法的輸入值,從而對整個文字文件進行分類處理。

       然而,即使上述模型對詞向量進行平均處理,我們仍然忽略了單詞之間的排列順序對情感分析的影響。作為一個處理可變長度文字的總結性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個段落向量以外,這個方法幾乎等同於 Word2Vec。和 Word2Vec 一樣,該模型也存在兩種方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。DM 試圖在給定上下文和段落向量的情況下預測單詞的概率。在一個句子或者文件的訓練過程中,段落 ID 保持不變,共享著同一個段落向量。DBOW 則在僅給定段落向量的情況下預測段落中一組隨機單詞的概率。(如圖 2 所示)

 
      一旦開始被訓練,這些段落向量可以被納入情感分類器中而不必對單詞進行加總處理。這個方法是當前最先進的方法,當它被用於對 IMDB 電影評論資料進行情感分類時,該模型的錯分率僅為 7.42%。當然如果我們無法真正實施的話,一切都是浮雲。幸運的是,genism(Python 軟體庫)中 Word2Vec 和 Doc2Vec 的優化版本是可用的。

利用 Python 實現的 Word2Vec 例項
       在本節中,我們展示了人們如何在情感分類專案中使用詞向量。我們可以在 Anaconda 分發版中找到 genism 庫,或者可以通過 pip 安裝 genism 庫。從這裡開始,你可以訓練自己語料庫(一個文字資料集)的詞向量或者從文字格式或二進位制格式檔案中匯入已經訓練好的詞向量。

       我發現利用谷歌預訓練好的詞向量資料來構建模型是非常有用的,該詞向量是基於谷歌新聞資料(大約一千億個單詞)訓練所得。需要注意的是,這個檔案解壓後的大小是 3.5 GB。利用谷歌的詞向量我們可以看到單詞之間一些有趣的關係:
 
有趣的是,我們可以從中發現語法關係,比如識別出最高階或單詞形態的單詞:
“biggest”-“big”+“small”=“smallest”
 
“ate”-“eat”+“speak”=“spoke”
 
        從上述的例子中我們可以看出 Word2Vec 可以識別單詞之間重要的關係。這使得它在許多 NLP 專案和我們的情感分析案例中非常有用。在我們將它運用到情感分析案例之前,讓我們先來測試下 Word2Vec 對單詞的分類能力。我們將利用三個分類的樣本集:食物、運動和天氣單詞集合,我們可以從Enchanted Learning網中下載得到這三個資料集。由於這是一個 300 維的向量,為了在 2D 檢視中對其進行視覺化,我們需要利用 Scikit-Learn 中的降維演算法 t-SNE 處理源資料。
首先,我們必須獲得如下所示的詞向量:
 
然後我們利用 TSNE 和 matplotlib 對分類結果進行視覺化處理:
 
視覺化結果如下圖所示:
 
從上圖可以看出,Word2Vec 很好地分離了不相關的單詞,並對它們進行聚類處理。

Emoji 推文的情感分析
        現在我們將分析帶有 Emoji 表情推文的情感狀況。我們利用 emoji 表情對我們的資料新增模糊的標籤。笑臉表情(:-))表示樂觀情緒,皺眉標籤(:-()表示悲觀情緒。總的 400000 條推文被分為樂觀和悲觀兩組資料。我們隨機從這兩組資料中抽取樣本,構建比例為 8:2 的訓練集和測試集。隨後,我們對訓練集資料構建 Word2Vec 模型,其中分類器的輸入值為推文中所有詞向量的加權平均值。我們可以利用 Scikit-Learn 構建許多機器學習模型。
首先,我們匯入資料並構建 Word2Vec 模型:
 
接下來,為了利用下面的函式獲得推文中所有詞向量的平均值,我們必須構建作為輸入文字的詞向量。
 
       調整資料集的量綱是資料標準化處理的一部分,我們通常將資料集轉化成服從均值為零的高斯分佈,這說明數值大於均值表示樂觀,反之則表示悲觀。為了使模型更有效,許多機器學習模型需要預先處理資料集的量綱,特別是文字分類器這類具有許多變數的模型。
 
最後我們需要建立測試集向量並對其標準化處理:
 
接下來我們想要通過計算測試集的預測精度和 ROC 曲線來驗證分類器的有效性。 ROC 曲線衡量當模型引數調整的時候,其真陽性率和假陽性率的變化情況。在我們的案例中,我們調整的是分類器模型截斷閾值的概率。一般來說,ROC 曲線下的面積(AUC)越大,該模型的表現越好。你可以在這裡找到更多關於 ROC 曲線的資料
(https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
在這個案例中我們使用羅吉斯迴歸的隨機梯度下降法作為分類器演算法。
 
隨後我們利用 matplotlib 和 metric 庫來構建 ROC 曲線。
 
ROC 曲線如下圖所示:
 
       在沒有建立任何型別的特性和最小文字預處理的情況下,我們利用 Scikit-Learn 構建的簡單線性模型的預測精度為 73%。有趣的是,刪除標點符號會影響預測精度,這說明 Word2Vec 模型可以提取出文件中符號所包含的資訊。處理單獨的單詞,訓練更長時間,做更多的資料預處理工作,和調整模型的引數都可以提高預測精度。我發現使用人工神經網路(ANNs)模型可以提高 5% 的預測精度。需要注意的是,Scikit-Learn 沒有提供 ANN 分類器的實現工具,所以我利用了自己建立的自定義庫:
 
       分類結果的精度為 77%。對於任何機器學習專案來說,選擇正確的模型通常是一種藝術而非科學的行為。如果你想要使用我自定義的庫,你可以在我的 github 主頁上找到它,但是這個庫非常混亂而且沒有定期維護!如果你想要貢獻自己的力量,請隨時復刻我的專案。


利用 Doc2Vec 分析電影評論資料
       利用詞向量均值對推文進行分析效果不錯,這是因為推文通常只有十幾個單詞,所以即使經過平均化處理仍能保持相關的特性。一旦我們開始分析段落資料時,如果忽略上下文和單詞順序的資訊,那麼我們將會丟掉許多重要的資訊。在這種情況下,最好是使用 Doc2Vec 來建立輸入資訊。作為一個示例,我們將使用 IMDB 電影評論資料及來測試 Doc2Vec 在情感分析中的有效性。該資料集包含 25000 條樂觀的電影評論,25000 條悲觀評論和 50000 條尚未新增標籤的評論。我們首先對未新增標籤的評論資料構建 Doc2Vec 模型:
 
這個程式碼建立了 LabeledSentence 型別的物件:
 
       接下來,我們舉例說明 Doc2Vec 的兩個模型,DM 和 DBOW。gensim 的說明文件建議多次訓練資料集並調整學習速率或在每次訓練中打亂輸入資訊的順序。我們從Doc2Vec 模型中獲得電影評論向量。
 
現在我們準備利用評論向量構建分類器模型。我們將再次使用 sklearn 中的 SGDClassifier。
 
這個模型的預測精度為 86%,我們還可以利用下面的程式碼繪製 ROC 曲線:
 
 
原論文中聲稱:與簡單羅吉斯迴歸模型相比,他們利用 50 個節點的神經網路分類器能獲得較高的預測精度。
 
       有趣的是,在這裡我們並沒有看到這樣的改進效果。該模型的預測精度為 85%,我們沒有看到他們所聲稱的 7.42% 誤差率。這可能存在以下幾個原因:我們沒有對訓練集和測試集進行足夠多的訓練,他們的 Doc2Vec 和 ANN 的實現方法不一樣等原因。因為論文中沒有詳細的說明,所以我們很難知道到底是哪個原因。不管這麼說,沒有經過很多的資料預處理和變數選擇過程,我們仍然取得了 86% 的預測精度。而且這不需要複雜的卷積和樹圖資料庫。

結論
        我希望你已經看到 Word2Vec 和 Doc2Vec 的實用性和便捷性。通過一個非常簡單的演算法,我們可以獲得豐富的詞向量和段落向量,這些向量資料可以被應用到各種各樣的 NLP 應用中。更關鍵的是谷歌公司開放了他們自己的預訓練詞向量結果,這個詞向量是基於一個別人難以獲取的大資料集而訓練得到的。如果你想要在大資料集中訓練自己的向量結果,現在已經有一個基於 Apache Spark 的 Word2Vec 實現工具。
(https://spark.apache.org/mllib/)

原文連結: 
https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis
原文作者:Michael Czerny
翻譯:Fibears

相關推薦

情感分析方法

       情感分析是一種常見的自然語言處理(NLP)方法的應用,特別是在以提取文字的情感內容為目標的分類方法中。通過這種方式,情感分析可以被視為利用一些情感得分指標來量化定性資料的方法。儘管情緒在很大程度上是主觀的,但是情感量化分析已經有很多有用的實踐,比如企業分析

文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。

建議 中心 這場 分詞 自然語言處理 目前 能力開放 計算 推薦算法 文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。 詞典資源:SentiWordNet《知網》中文版中文情感極性詞典 NTUSD情感詞匯本體下載 自然語言處理

情感分析方法之snownlp和貝葉斯分類器(三)

《情感分析方法之nltk情感分析器和SVM分類器(二)》主要使用nltk處理英文語料,使用SVM分類器處理中文語料。實際的新聞評論中既包含英文,又包含中文和阿拉伯文。本次主要使用snownlp處理中文語料。一、snownlp使用from snownlp import Snow

Python 文字挖掘:使用機器學習方法進行情感分析(一、特徵提取和選擇)

def create_word_bigram_scores(): posdata = pickle.load(open('D:/code/sentiment_test/pos_review.pkl','r')) negdata = pickle.load(open('D:/code/senti

現代情感分析方法

情感分析(Sentiment analysis)是自然語言處理(NLP)方法中常見的應用,尤其是以提煉文字情緒內容為目的的分類。利用情感分析這樣的方法,可以通過情感評分對定性資料進行定量分析。雖然情感充滿了主觀性,但情感定量分析已經有許多實用功能,例如企業藉此瞭解使用者對產品的

【從傳統方法到深度學習】情感分析

為了記錄在競賽中入門深度學習的過程,我開了一個新系列【從傳統方法到深度學習】。 1. 問題 Kaggle競賽Bag of Words Meets Bags of Popcorn是電影評論(review)的情感分析,可以視作為短文字的二分類問題(正向、負向)。標註資料集長這樣: id sentiment

文字情感分析+python+正面和負面新聞+浪微博+情感字典+機器學習

文字情感分析 從上一篇完成了對新浪微博的爬取,以及模擬登入的問題,小編又開始研究對微博文 本的正面和反面分析,從網上搜索了好多方法,有機器學習和情感字典,可是機器學 習需要比較深的知識鏈,而小編還是小白,所以就選擇了情感字典方法。好了,直接 上程式碼嘛,直接可

關於PS4以上的一個方法

style 微軟雅黑 justify 關於PS4以上的一個新方法最近在無意中發現一個PSCmdlet中的新的方法,應該在PS3.0 以上都會有2.0 由於實在懶得弄個demo所以沒驗證,估計沒有這裏還得提一下 某不給代碼就噴的孩子 如果你要噴出門左轉 不謝!由於我是在C# 開發Cmdlet中無意發

《一種策略融合的跨語言文本情感傾向判別方法》論文學習筆記(大一下)

建立 現象 資源 步驟 特征選擇 標簽 標註 障礙 協同 現象:因特網資源呈現多語言化和跨語言的特點,給普通用戶獲取非母語網絡信息造成障礙。 目標:整合多語言傾向信息,以通用的數據形式讓用戶了解多語言數據對某個對象的評價。 針對跨語言情感傾向分類任務,提出兩種跨語言

短文本情感分析

描述 構建 jsb python itl 不容易 網站 而且 learn 一、什麽是情感分析: 情感分析(SA)又稱為傾向性分析和意見挖掘,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,其中情感分析還可以細分為情感極性(傾向)分析,情感程度分析,主客觀分

情感分析簡述

lin cli 上下 指導 評論 限制 sub graph richard 情感分析,我研究了也有半年有余了,號稱看遍ACL上關於情感分析的論文,但是到目前還沒有什麽成就的。以下是我為一位同學畢業設計寫的情感分析方面的綜述,引用的論文基本上是ACL和COLING還有EMNL

DL380 G6 BIOS刷方法

target -1 line void logs meid jpg task typeid bios下載地址SP44873.exe (5.9 MB) http://h20000.www2.hp.com/bizsupport/TechSupport/SoftwareDesc

JavaScript筆記6-數組方法

ray javascrip 類型 sum pre lastindex each clas reduce 七.ECMAScript5關於數組的新方法 1.forEach():遍歷數組,並為每個元素調用傳入的函數; 舉例: 1 var a = [1,2,3

HTML5——JSON的方法

數據傳輸 htm mas 清晰 lan 編寫 lsp ont blank JSON(JavaScript Object Notation, JS 對象標記) 是一種輕量級的數據交換格式。它基於 ECMAScript (w3c制定的js規範)的一個子集,采用完全獨立於編程語言

情感分析 | 一份就職宣誓也許就可以預測一個國家未來幾年的政治形勢

r正想準備做一個情感分析,結果在網上搜了一些資料,然後發現了一個專門用來做英文情感分析的包,再說一遍是做英文情感分析的包——RSentiment。了解之後發現這個包比較簡單,只有6個函數,每個函數的參數也都特別少,至少一個,最多才三個。這六個函數的作用都一樣,只是返回值和參數略有不同罷了,先來說說每個函數的返

Spring 實戰-第四章-4.4 使用xml中聲明切面及引入方法

cati sys epp proc oca cover tor ring tex 當不能直接接觸源碼時,同樣的不能給源碼增加註解,這時可以使用xml的方式聲明切面並引入新方法 CompactDisc接口 package main.java.soundsystem;

ES6中數組的方法

1.5 展開 ble 依次 cnblogs 有一個 基本上 console 新的 數組的擴展 1.1擴展運算符 1.1.1:... 擴展運算符(spread)是三個點(...)。它好比 rest 參數的逆運算,將一個數組轉為用逗號分隔的參數序列。

spark scala word2vec 和多層分類感知器在情感分析中的實際應用

predict output edi ext oop post format vector spa 轉自:http://www.cnblogs.com/canyangfeixue/p/7227998.html 對於威脅檢測算法使用神經網絡訓練有用!!!TODO待實驗 /

粗糙的情感分析

strip urn motion nbsp nco else pri return 情感 import jiebadef judodd(num): if (num % 2) == 0: return "enev" else: retu

微信小號掛機?微信開啟網賺方法

blank 提現 get app 賬號 windows 網站 .com 需要 微信小號掛機?微信開啟網賺新方法! 在我們的朋友圈經常看見幫自家孩子投個票、幫某員工投個票!網絡上的微信投票的價格2毛,5毛,1元不等。所以網絡催生了許多微信投票的團體。最近博主發現一個網站,正是