情感分析的新方法

阿新 • • 發佈：2019-01-11

情感分析是一種常見的自然語言處理（NLP）方法的應用，特別是在以提取文字的情感內容為目標的分類方法中。通過這種方式，情感分析可以被視為利用一些情感得分指標來量化定性資料的方法。儘管情緒在很大程度上是主觀的，但是情感量化分析已經有很多有用的實踐，比如企業分析消費者對產品的反饋資訊，或者檢測線上評論中的差評資訊。
最簡單的情感分析方法是利用詞語的正負屬性來判定。句子中的每個單詞都有一個得分，樂觀的單詞得分為 +1，悲觀的單詞則為 -1。然後我們對句子中所有單詞得分進行加總求和得到一個最終的情感總分。很明顯，這種方法有許多侷限之處，最重要的一點在於它忽略了上下文的資訊。例如，在這個簡易模型中，因為“not”的得分為 -1，而“good”的得分為 +1，所以片語“not good”將被歸類到中性片語中。儘管片語“not good”中包含單詞“good”，但是人們仍傾向於將其歸類到悲觀片語中。
另外一個常見的方法是將文字視為一個“詞袋”。我們將每個文字看出一個1xN的向量，其中N表示文字詞彙的數量。該向量中每一列都是一個單詞，其對應的值為該單詞出現的頻數。例如，片語“bag of bag of words”可以被編碼為 [2, 2, 1]。這些資料可以被應用到機器學習分類演算法中（比如羅吉斯迴歸或者支援向量機），從而預測未知資料的情感狀況。需要注意的是，這種有監督學習的方法要求利用已知情感狀況的資料作為訓練集。雖然這個方法改進了之前的模型，但是它仍然忽略了上下文的資訊和資料集的規模情況。

Word2Vec 和 Doc2Vec
最近，谷歌開發了一個叫做 Word2Vec 的方法，該方法可以在捕捉語境資訊的同時壓縮資料規模。Word2Vec實際上是兩種不同的方法：Continuous Bag of Words (CBOW) 和 Skip-gram。CBOW的目標是根據上下文來預測當前詞語的概率。Skip-gram剛好相反：根據當前詞語來預測上下文的概率（如圖 1 所示）。這兩種方法都利用人工神經網路作為它們的分類演算法。起初，每個單詞都是一個隨機 N 維向量。經過訓練之後，該演算法利用 CBOW 或者 Skip-gram 的方法獲得了每個單詞的最優向量。

現在這些詞向量已經捕捉到上下文的資訊。我們可以利用基本代數公式來發現單詞之間的關係（比如，“國王”-“男人”+“女人”=“王后”）。這些詞向量可以代替詞袋用來預測未知資料的情感狀況。該模型的優點在於不僅考慮了語境資訊還壓縮了資料規模（通常情況下，詞彙量規模大約在300個單詞左右而不是之前模型的100000個單詞）。因為神經網路可以替我們提取出這些特徵的資訊，所以我們僅需要做很少的手動工作。但是由於文字的長度各異，我們可能需要利用所有詞向量的平均值作為分類演算法的輸入值，從而對整個文字文件進行分類處理。

然而，即使上述模型對詞向量進行平均處理，我們仍然忽略了單詞之間的排列順序對情感分析的影響。作為一個處理可變長度文字的總結性方法，Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個段落向量以外，這個方法幾乎等同於 Word2Vec。和 Word2Vec 一樣，該模型也存在兩種方法：Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。DM 試圖在給定上下文和段落向量的情況下預測單詞的概率。在一個句子或者文件的訓練過程中，段落 ID 保持不變，共享著同一個段落向量。DBOW 則在僅給定段落向量的情況下預測段落中一組隨機單詞的概率。（如圖 2 所示）

一旦開始被訓練，這些段落向量可以被納入情感分類器中而不必對單詞進行加總處理。這個方法是當前最先進的方法，當它被用於對 IMDB 電影評論資料進行情感分類時，該模型的錯分率僅為 7.42%。當然如果我們無法真正實施的話，一切都是浮雲。幸運的是，genism（Python 軟體庫）中 Word2Vec 和 Doc2Vec 的優化版本是可用的。

利用 Python 實現的 Word2Vec 例項
在本節中，我們展示了人們如何在情感分類專案中使用詞向量。我們可以在 Anaconda 分發版中找到 genism 庫，或者可以通過 pip 安裝 genism 庫。從這裡開始，你可以訓練自己語料庫（一個文字資料集）的詞向量或者從文字格式或二進位制格式檔案中匯入已經訓練好的詞向量。

我發現利用谷歌預訓練好的詞向量資料來構建模型是非常有用的，該詞向量是基於谷歌新聞資料（大約一千億個單詞）訓練所得。需要注意的是，這個檔案解壓後的大小是 3.5 GB。利用谷歌的詞向量我們可以看到單詞之間一些有趣的關係：

有趣的是，我們可以從中發現語法關係，比如識別出最高階或單詞形態的單詞：
“biggest”-“big”+“small”=“smallest”

“ate”-“eat”+“speak”=“spoke”

從上述的例子中我們可以看出 Word2Vec 可以識別單詞之間重要的關係。這使得它在許多 NLP 專案和我們的情感分析案例中非常有用。在我們將它運用到情感分析案例之前，讓我們先來測試下 Word2Vec 對單詞的分類能力。我們將利用三個分類的樣本集：食物、運動和天氣單詞集合，我們可以從Enchanted Learning網中下載得到這三個資料集。由於這是一個 300 維的向量，為了在 2D 檢視中對其進行視覺化，我們需要利用 Scikit-Learn 中的降維演算法 t-SNE 處理源資料。
首先，我們必須獲得如下所示的詞向量：

然後我們利用 TSNE 和 matplotlib 對分類結果進行視覺化處理：

視覺化結果如下圖所示：

從上圖可以看出，Word2Vec 很好地分離了不相關的單詞，並對它們進行聚類處理。

Emoji 推文的情感分析
現在我們將分析帶有 Emoji 表情推文的情感狀況。我們利用 emoji 表情對我們的資料新增模糊的標籤。笑臉表情（:-））表示樂觀情緒，皺眉標籤（:-()表示悲觀情緒。總的 400000 條推文被分為樂觀和悲觀兩組資料。我們隨機從這兩組資料中抽取樣本，構建比例為 8：2 的訓練集和測試集。隨後，我們對訓練集資料構建 Word2Vec 模型，其中分類器的輸入值為推文中所有詞向量的加權平均值。我們可以利用 Scikit-Learn 構建許多機器學習模型。
首先，我們匯入資料並構建 Word2Vec 模型：

接下來，為了利用下面的函式獲得推文中所有詞向量的平均值，我們必須構建作為輸入文字的詞向量。

調整資料集的量綱是資料標準化處理的一部分，我們通常將資料集轉化成服從均值為零的高斯分佈，這說明數值大於均值表示樂觀，反之則表示悲觀。為了使模型更有效，許多機器學習模型需要預先處理資料集的量綱，特別是文字分類器這類具有許多變數的模型。

最後我們需要建立測試集向量並對其標準化處理：

接下來我們想要通過計算測試集的預測精度和 ROC 曲線來驗證分類器的有效性。 ROC 曲線衡量當模型引數調整的時候，其真陽性率和假陽性率的變化情況。在我們的案例中，我們調整的是分類器模型截斷閾值的概率。一般來說，ROC 曲線下的面積（AUC）越大，該模型的表現越好。你可以在這裡找到更多關於 ROC 曲線的資料
（https://en.wikipedia.org/wiki/Receiver_operating_characteristic）
在這個案例中我們使用羅吉斯迴歸的隨機梯度下降法作為分類器演算法。

隨後我們利用 matplotlib 和 metric 庫來構建 ROC 曲線。

ROC 曲線如下圖所示：

在沒有建立任何型別的特性和最小文字預處理的情況下，我們利用 Scikit-Learn 構建的簡單線性模型的預測精度為 73%。有趣的是，刪除標點符號會影響預測精度，這說明 Word2Vec 模型可以提取出文件中符號所包含的資訊。處理單獨的單詞，訓練更長時間，做更多的資料預處理工作，和調整模型的引數都可以提高預測精度。我發現使用人工神經網路（ANNs）模型可以提高 5% 的預測精度。需要注意的是，Scikit-Learn 沒有提供 ANN 分類器的實現工具，所以我利用了自己建立的自定義庫：

分類結果的精度為 77%。對於任何機器學習專案來說，選擇正確的模型通常是一種藝術而非科學的行為。如果你想要使用我自定義的庫，你可以在我的 github 主頁上找到它，但是這個庫非常混亂而且沒有定期維護！如果你想要貢獻自己的力量，請隨時復刻我的專案。

利用 Doc2Vec 分析電影評論資料
利用詞向量均值對推文進行分析效果不錯，這是因為推文通常只有十幾個單詞，所以即使經過平均化處理仍能保持相關的特性。一旦我們開始分析段落資料時，如果忽略上下文和單詞順序的資訊，那麼我們將會丟掉許多重要的資訊。在這種情況下，最好是使用 Doc2Vec 來建立輸入資訊。作為一個示例，我們將使用 IMDB 電影評論資料及來測試 Doc2Vec 在情感分析中的有效性。該資料集包含 25000 條樂觀的電影評論，25000 條悲觀評論和 50000 條尚未新增標籤的評論。我們首先對未新增標籤的評論資料構建 Doc2Vec 模型：

這個程式碼建立了 LabeledSentence 型別的物件：

接下來，我們舉例說明 Doc2Vec 的兩個模型，DM 和 DBOW。gensim 的說明文件建議多次訓練資料集並調整學習速率或在每次訓練中打亂輸入資訊的順序。我們從Doc2Vec 模型中獲得電影評論向量。

現在我們準備利用評論向量構建分類器模型。我們將再次使用 sklearn 中的 SGDClassifier。

這個模型的預測精度為 86%，我們還可以利用下面的程式碼繪製 ROC 曲線：

原論文中聲稱：與簡單羅吉斯迴歸模型相比，他們利用 50 個節點的神經網路分類器能獲得較高的預測精度。

有趣的是，在這裡我們並沒有看到這樣的改進效果。該模型的預測精度為 85%，我們沒有看到他們所聲稱的 7.42% 誤差率。這可能存在以下幾個原因：我們沒有對訓練集和測試集進行足夠多的訓練，他們的 Doc2Vec 和 ANN 的實現方法不一樣等原因。因為論文中沒有詳細的說明，所以我們很難知道到底是哪個原因。不管這麼說，沒有經過很多的資料預處理和變數選擇過程，我們仍然取得了 86% 的預測精度。而且這不需要複雜的卷積和樹圖資料庫。

結論
我希望你已經看到 Word2Vec 和 Doc2Vec 的實用性和便捷性。通過一個非常簡單的演算法，我們可以獲得豐富的詞向量和段落向量，這些向量資料可以被應用到各種各樣的 NLP 應用中。更關鍵的是谷歌公司開放了他們自己的預訓練詞向量結果，這個詞向量是基於一個別人難以獲取的大資料集而訓練得到的。如果你想要在大資料集中訓練自己的向量結果，現在已經有一個基於 Apache Spark 的 Word2Vec 實現工具。
（https://spark.apache.org/mllib/）

原文連結:
https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis
原文作者：Michael Czerny
翻譯：Fibears

情感分析的新方法

情感分析的新方法

文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。

情感分析方法之snownlp和貝葉斯分類器（三）

Python 文字挖掘：使用機器學習方法進行情感分析（一、特徵提取和選擇）

現代情感分析方法

【從傳統方法到深度學習】情感分析

文字情感分析+python+正面和負面新聞+新浪微博+情感字典+機器學習

關於PS4以上的一個新方法

《一種策略融合的跨語言文本情感傾向判別方法》論文學習筆記（大一下）

短文本情感分析

情感分析簡述

DL380 G6 BIOS刷新方法

JavaScript筆記6-數組新方法

HTML5——JSON的新方法

情感分析 | 一份就職宣誓也許就可以預測一個國家未來幾年的政治形勢

Spring 實戰-第四章-4.4 使用xml中聲明切面及引入新方法

ES6中數組的新方法

spark scala word2vec 和多層分類感知器在情感分析中的實際應用

粗糙的情感分析

微信小號掛機？微信開啟網賺新方法！

情感分析的新方法

相關推薦