斯坦福大學-自然語言處理入門筆記第七課情感分析（sentiment analysis）

阿新 • • 發佈：2018-11-06

一、情感分析簡述

情感分析（sentiment analysis），又叫意見抽取（opinion extraction），意見挖掘（opinion mining）,情感挖掘（sentiment mining）以及主觀分析（subjectivity analysis）。

情感分析的應用領域非常廣泛
情感分析是對態度的研究，具體可以分解為：
按照複雜程度，可以把情感分類分為三類
- 簡單任務：判斷文字的任務是消極的還是積極的
- 更復雜：把對文字的態度按1-5打分
- 進階：研究來源（source）、物件（target）以及複雜的態度型別

二、一個基本演算法

1、一個情感分類任務

判斷IMDB的電影評論是積極的還是消極的
資料：Polarity Data 2.0 http://www.cs.cornell.edu/people/pabo/movie-review-data
基本步驟
- 分詞（tokenizaiton）
- 特徵抽取
- 利用分類模型分類（樸素貝葉斯，SVM，MaxEnt)

2、情感分詞（tokenizaiton）問題

處理HTML和XML的標記
Twitter的標記（名字，tags）
大寫（保留全部大寫的單詞）

電話和日期
表情（下面是一些正則表達）
一些有用的程式碼
http://sentiment.christopherpotts.net/code-data/happyfuntokenizing.py

3、特徵抽取

否定的抽取： I didn‘ t like this movie vs I really like this movie
- 解決方案：在否定詞和接下來的標點之間的每個詞都加上NOT_,形如下面
抽取哪些單詞？
- 只使用形容詞
- 還是使用全部單詞？
  - 全部的單詞表現更好，至少在這個資料集上是這樣

4、分類：二值化（binarized (Boolean feature)）多元樸素貝葉斯

基本思想：主要針對情感（或者可能是其他文字分類領域）。單詞是否出現比單詞出現的頻率更為重要，所以這個演算法的特別之處在於對出現的單詞都記為1。
具體演算法和樸素貝葉斯一致，唯一的變動是在計算P（w|c）的時候，先刪除每篇文件裡的重複的單詞，只保留一個。
這種演算法會比原來的樸素貝葉斯效果更好（這個演算法和Mutivariate Bernoulli Naive Bayes是不一樣的，後者在文字問題上效果不好)
也可以使用其他的改進：log(freq(w))(單詞的count取對數以後就會小很多）

5、交叉檢驗（cross-validation）

把資料集分成十份fold（每一份中類別比例相同）
對每一份（fold），選擇這一份作為臨時的測試集，在另外九份上訓練模型，並在測試集上計算模型效果。
給出十份效果的平均數

6、評論難以分類的原因

在這裡插入圖片描述

三、情感詞典（sentiment Lexicons）

1、一些可用的情感詞典

在這裡插入圖片描述

根據相關的研究，我們發現除了sentiword，其他情感詞典的相似度都很高。

2、分析IMDB中每個詞的極性（polarity）

比較單詞和電影打分之間的相關性，考慮到可比性，計算的公式如下：
在這裡插入圖片描述

3、邏輯否定詞

根據pott的研究，更多的否定詞會出現在消極情緒中
在這裡插入圖片描述

四、情感詞典訓練

1、利用半監督學習詞典

使用少量的資訊，包括一些標註的樣本和一些人工建立的模式（pattern），通過bootstrap的方法來訓練詞典。

2、Hatzivassiloglou和Mckeown的演算法（用於單詞詞典的構造）

關鍵思想：用and相連的兩個詞，極性相同；用but相連的兩個詞，則反之。
第一步：標記種子集（seed set）
- 1336個形容詞，657個正向詞，679個負向詞
第二步：利用關鍵思想拓展種子集
第三步：利用監督分類演算法計算單詞對的極性相似程度（polarity similarity），結果如下圖。
第四步：利用聚類方法把圖分為兩個部分
最終的結果：確實會出現不準確的情況

3、Turney演算法（用於片語詞典的構造）

第一步：根據下面的規則，抽取兩字片語
第二步：學習每個片語的詞性
- 基本思想：積極片語會和“excellent”更多的一起出現；消極片語會和“poor”更多的一起出現
- 度量一起出現的指標：PMI（pointwise mutual information)，表示x和y同時出現的概率，比上他們如果獨立的時候同時出現的概率。
  - 兩個單詞之間的PMI可以寫成如下的形式：
  - 具體到概率的計算如下：P(word)是word出現的次數/總單詞數，P（word1，word2）是word1和word2同時出現的次數/總單詞數的平方
  - 極性的度量=和excellent的PMI-和poor的PMI
例子

4、使用wordnet學習極性

wordnet：線上分類詞典（thesaurus）
種子詞：積極（good），消極（terrible）
找同義詞和反義詞
- 積極方面：加入積極的同義詞（well）和消極的反義詞
- 消極方面：加入消極的同義詞（awful）和積極的反義詞（evil）

5、訓練詞典的總結

優點
- 有領域針對性（demain-specific）
- 可以有更多單詞，因此更穩健
主要解決思想
- 開始找一系列種子詞（good，bad）
- 找到其他有相同詞性的詞（利用and/but，利用在同一篇文件中附近出現的單詞，利用wordnet的同義詞和反義詞）

五、其他情感任務

1、研究情感的方面（aspect）、物件（target）以及態度（attribute）

如何選取方面（aspect）？
- 有些可以事先確定，比如我們要研究酒店的話，方面就是食物、交通、裝置等等
- 有些則利用出現的頻率和規則確定
  - 找到在評論中經常出現的片語（fish tacos）
  - 利用一些規則進行篩選，比如在情感詞後面出現的詞，比如great fish tacos可以提取fish tacos
接下來，進行有監督學習
- 對一小部分的語料進行關於方面（aspect）的人工標註
- 訓練一個分類器，將其他沒標註的句子分到對應的方面（aspect）中
步驟圖示
訓練結果

2、不均衡類別問題

基本模型假設類別的頻率是均衡的，但是在現實生活中的大部分問題，類別都是不均衡的（類別發生的概率是不一樣的）
非均衡問題的評價標準：用準確率不適合來進行評價，應該使用F值
嚴重的非均衡問題甚至會降低分類表現
兩個常見的解決方案
- 訓練樣本重抽樣：隨機欠擬合
- 代價損失函式：svm，當對較少的類錯誤分類的時候會進行懲罰

3、七星問題的處理

轉化為二分類問題
用線性或者有序迴歸，或者是特定的模型，比如metric labeling

4、關於情緒（sentiment)的總結

通常會構建分類或者是迴歸模型
特徵構建上的一些要點
- 否定（negation）是很重要的
- 使用所有的單詞（樸素貝葉斯）做特徵，在某些任務中表現很好
- 在其他任務中，使用單詞的子集會更好
  - 手工建立的極性詞典
  - 種子和半監督方法生成詞典

5、除了態度以外，還可以進行其他型別的分析

在這裡插入圖片描述

，

斯坦福大學-自然語言處理入門筆記第七課情感分析（sentiment analysis）

一、情感分析簡述情感分析（sentiment analysis），又叫意見抽取（opinion extraction），意見挖掘（opinion mining）,情感挖掘（sentiment mining）以及主觀分析（subjectivity analysis）。情感分

斯坦福大學-自然語言處理入門筆記第十課關係抽取（relation extraction）

一、簡介關係抽取就是從文件中抽取關係，例子如下：為什麼進行關係抽取建立新的關係型知識庫（knowledge bases）增強目前的知識庫（knowledge bases）支援問題回答（question answering）

斯坦福大學-自然語言處理入門筆記第九課資訊抽取（information extraction）

一、介紹 1、資訊抽取（information extraction）資訊抽取（IE）系統找到並理解文字中的有限的相關性從很多的文件之中收集資訊產生一個相關資訊的結構化的表徵目的：進行資

斯坦福大學-自然語言處理入門筆記第二十課問答系統（question answering）

1、什麼是問答系統問答系統是最早的NLP任務，根據問題的依存關係，找到適合的依存關係的回答。在現代系統中問題被分為兩類事實問題的回答一般都是一個簡單的片語或者是命名實體兩種問答系統的正規化基於資訊檢索的路徑：TREC; I

斯坦福大學-自然語言處理入門筆記第十三課統計語言句法分析（prasing）

課程來源：Introduction to NLP by Chris Manning & Dan jurafsky 關於專用名詞和概念：剛接觸NLP領域，所以有些專有名詞的翻譯和專有概念可能會存在一定的偏誤，隨著學習的深入，我會隨時更新改正。一、關於句法結構的兩種看法

斯坦福大學-自然語言處理入門筆記第八課最大熵模型與判別模型

一、生成模型與判別模型 1、引言到目前為止，我們使用的是生成模型（generative model)，但是在實際使用中我們也在大量使用判別模型（discriminative model)，主要是因為它有如下的優點：準確性很高更容易包含很多和

斯坦福大學-自然語言處理入門筆記第六課文字分類與樸素貝葉斯

一、文字分類任務概述 1、應用領域歸類垃圾郵件識別作者識別性別/年齡識別等等 2、定義輸入：一個文件d，一系列固定的型別C={c1,c2,…,cj} 輸出：預測類別c ∈ C 3、分類方法

斯坦福大學-自然語言處理入門筆記第五課拼寫糾正與噪音通道（Noisy Channel）

一、拼寫糾正任務 1、拼寫任務發現拼寫錯誤糾正拼寫錯誤自動糾正給出糾正建議（一個詞）給出糾正建議（一些詞） 2、拼寫錯誤的型別拼寫出來的不是單詞（non-word spelling e

斯坦福大學-自然語言處理入門筆記第四課語言模型

一、介紹N-grams 1、概率語言模型對每個句子給出一個概率，用以判斷機器翻譯中哪個句子是最佳的選擇，拼寫校準中哪個句子可能出現錯誤。目標：計算句子或者是一系列單詞的概率

斯坦福大學自然語言處理第七課“情感分析（Sentiment Analysis）”

一、課程介紹斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程，由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課：https://class.coursera.org/nlp/ 以下是本課程的學習筆記，以課程PP

斯坦福大學-自然語言處理入門筆記第十九課單詞含義與相似性

一、單詞含義與單詞關係回顧：詞目（lemma）與單詞形式（wordform）詞目：表示相同的詞根、詞性以及大致的語義單詞形式：表示在文件中出現的具體單詞形式一個詞目可能會含有很多含義（sense）。含義（sense）表示單

斯坦福大學-自然語言處理入門筆記第十八課排序檢索介紹（ranked retrieval）

一、介紹之前我們的請求都是布林型別。對於那些明確知道自己的需求並且瞭解集合體情況的使用者而言，布林型別的請求是很有效的。但是對於大部分的其他使用者而言，布林請求的問題是：大部分使用者不熟悉布林請求；布林請求比較複雜；布林請求的結果不是太多就是太少。排序檢索應運而生。排序

斯坦福大學-自然語言處理入門筆記第十七課資訊檢索（information retrieval）

一、介紹資訊檢索（information retrieval）是從海量集合體（一般是儲存在計算機中的文字）中找到滿足資訊需求（information need）的材料（一般是文件）資訊檢索的應用領域：網頁搜尋，郵件搜尋，電腦內部搜尋，法律資訊檢索等等資訊檢索的基

斯坦福大學-自然語言處理入門筆記第十六課依存句法分析（Dependency Parsing）

一、介紹 1、依存句法依存句法假設：句法結構包含相互之間是雙邊不對稱關係的詞典（lexical）元素，這種不對稱的關係成為依存（dependency），在圖中的表現是單向箭頭。箭頭通常還會打上這種語法關係的名字（主語，前置賓語等等）箭頭一邊連線中心詞head

斯坦福大學-自然語言處理入門筆記第十五課詞彙化（Lexicalization）的PCFGs

一、介紹一個短語的中心詞（head word）可以很好地代表這個短語的結構和含義，在構建PCFG模型的時候，可以考慮將這部分資訊納入其中。如下圖所示加入單詞資訊可以幫助我們更好地選擇出合適的模型。二、Charniak模型 Charniak模型是詞彙化P

斯坦福大學-自然語言處理入門筆記第十四課 CGSs和PCFGs

一、概率上下文無關文法（(Probabilistic) Context-Free Grammars） 1、上下文無關文法（Context-Free Grammars）我們也可以稱之為片語結構語法(Phrase structure grammars) 由四個成分構成G=

斯坦福大學-自然語言處理入門筆記第十二課詞性標註（Part-of-speech tagging）

一、詞性（part-of-speech)介紹詞性：名詞（Nouns)，動詞（Verbs)，形容詞（Adjectives），副詞（Adverbs)等等就是我們想要研究的詞性我們可以把詞性分為開放類（open class）和閉合類（closed class）。

斯坦福大學-自然語言處理入門筆記第十一課最大熵模型與判別模型（2）

一、最大熵模型 1、模型介紹基本思想：我們希望資料是均勻分佈的，除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵（high entropy）。所以，最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下，同時熵最高的分佈。熵：表示分佈的不

斯坦福大學-自然語言處理入門筆記第二十一課問答系統（2）

一、問答系統中的總結（summarization）目標：產生一個摘要文字包含那些對使用者重要和相關的資訊總結的應用領域：任何文件的摘要和大綱，郵件摘要等等根據總結的內容，我們可以把總結分為兩類：單文件總結：給出一個單一文件的摘要、大綱、標題

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第三課詞向量（2）

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

斯坦福大學-自然語言處理入門 筆記 第七課 情感分析（sentiment analysis）

一、情感分析簡述

二、一個基本演算法

1、一個情感分類任務

2、情感分詞（tokenizaiton）問題

3、特徵抽取

4、分類：二值化（binarized (Boolean feature)）多元樸素貝葉斯

5、交叉檢驗（cross-validation）

6、評論難以分類的原因

三、情感詞典（sentiment Lexicons）

1、一些可用的情感詞典

2、 分析IMDB中每個詞的極性（polarity）

3、邏輯否定詞

四、情感詞典訓練

1、利用半監督學習詞典

2、Hatzivassiloglou和Mckeown的演算法（用於單詞詞典的構造）

3、Turney演算法（用於片語詞典的構造）

4、使用wordnet學習極性

5、訓練詞典的總結

五、其他情感任務

1、研究情感的方面（aspect）、物件（target）以及態度（attribute）

2、不均衡類別問題

3、七星問題的處理

4、關於情緒（sentiment)的總結

5、除了態度以外，還可以進行其他型別的分析

相關推薦

斯坦福大學-自然語言處理入門筆記第七課情感分析（sentiment analysis）

2、分析IMDB中每個詞的極性（polarity）