1. 程式人生 > >【自然語言處理】情感分析資源

【自然語言處理】情感分析資源

(以下需要論壇積分)


情感分析語料
3.酒店評論語料
http://www.datatang.com/data/11936 
譚鬆波整理的一個較大規模的酒店評論語料。
語料規模為10000篇。語料從攜程網上自動採集,並經過整理而成。

4.豆瓣網影評情感測試語料
http://www.datatang.com/data/13539 
來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標註。語料至527頁。每頁20條短評。共計11323條評論

————————————————————————————–

文字情感分析綜述∗趙妍妍+, 秦兵, 劉挺

4.2 情感分析的資源建設
4.2.1 情感分析的語料

1.(可下載) 康奈爾大學(Cornell)提供的影評資料集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由電影評論組成,其中持肯定和否定態度的各1,000 篇;另外還有標註了褒貶極性的句子各5,331 句,標註了主客觀標籤的句子各5,000 句.目前影評庫被廣泛應用於各種粒度的,如詞語、句子和篇章級情感分析研究中.
2. 伊利諾伊大學芝加哥分校(UIC)的Hu 和Liu 提供的產品領域的評論語料:主要包括從亞馬遜和Cnet 下
載的五種電子產品的網路評論(包括兩個品牌的數碼相機,手機,MP3 和DVD 播放器).其中他們將這些語料按句
子為單元詳細標註了評價物件,情感句的極性及強度等資訊.因此,該語料適合於評價物件抽取和句子級主客觀
識別,以及情感分類方法的研究.此外,Liu 還貢獻了比較句研究[74]方面的語料.
3. (可下載)

Janyce Wiebe 等人所開發的MPQA(Multiple-Perspective QA)庫:包含535 篇不同視角的新聞評論,它是一個進行了深度標註的語料庫.其中標註者為每個子句手工標註出一些情感資訊,如觀點持有者,評價物件,主觀表示式以及其極性與強度.文獻[75]描述了整個的標註流程.MPQA 語料適合於新聞評論領域任務的研究.
4. 麻省理工學院(MIT)的Barzilay 等人構建的多角度餐館評論語料:共4,488 篇,每篇語料分別按照五個角
度(飯菜,環境,服務,價錢,整體體驗)分別標註上1~5 個等級.這組語料為單文件的基於產品屬性的情感文摘提供
了研究平臺.
5. 國內的中科院計算所的譚鬆波博士提供的較大規模的中文酒店評論語料
:約有10,000 篇,並標註了褒貶
類別,可以為中文的篇章級的情感分類提供一定的平臺.

4.2.2 情感分析的詞典資源
情感分析發展到現在,有不少前人總結出來的情感資源,大多數表現為評價詞詞典資源.
1. GI(General Inquirer)評價詞詞典(英文,http://www.wjh.harvard.edu/~inquirer/).該詞典收集了1,914 個褒義詞和2,293 個貶義詞,併為每個詞語按照極性,強度,詞性等打上不同的標籤,便於情感分析任務中的靈活應用.
2. NTU 評價詞詞典(繁體中文).該詞典由臺灣大學收集,含有2,812 個褒義詞與8,276 個貶義詞[76].
3.(可下載) 主觀詞詞典(英文,http://www.cs.pitt.edu/mpqa/).該詞典的主觀詞語來自OpinionFinder 系統,該詞典含有8,221 個主觀詞,併為每個詞語標註了詞性,詞性還原以及情感極性.
4. (可下載)HowNet 評價詞詞典(簡體中文、英文,http://www.keenage.com/html/e_index.html).該詞典包含9,193 箇中文評價詞語/短語, 9,142 個英文評價詞語/短語,並被分為褒貶兩類.其中,該詞典提供了評價短語,為情感分析提供了更豐富的情感資源.