1. 程式人生 > >自然語言處理常用到的包

自然語言處理常用到的包

關於情感分析

情感分析的詞庫,

情感分析語料
3.酒店評論語料
- http://www.datatang.com/data/11936
譚鬆波整理的一個較大規模的酒店評論語料。
語料規模為10000篇。語料從攜程網上自動採集,並經過整理而成。
4.豆瓣網影評情感測試語料
- http://www.datatang.com/data/13539
來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標註。語料至527頁。每頁20條短評。共計11323條評論
5.酒店、電腦與書籍的評論語料
- http://www.datatang.com/data/11937


資料量不太大,也有一些重複的資料
6.評論網頁資料集
- http://www.datatang.com/data/12044
資料量不小,包括的電影和評論都不少

文字情感分析綜述∗趙妍妍+, 秦兵, 劉挺
4.2 情感分析的資源建設
4.2.1 情感分析的語料
1.(可下載) 康奈爾大學(Cornell)提供的影評資料集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由電影評論組成,其中持肯定和否定態度的各1,000 篇;另外還有標註了褒貶極性的句子各5,331 句,標註了主客觀標籤的句子各5,000 句.目前影評庫被廣泛應用於各種粒度的,如詞語、句子和篇章級情感分析研究中.
2. 伊利諾伊大學芝加哥分校(UIC)的Hu 和Liu 提供的產品領域的評論語料:主要包括從亞馬遜和Cnet 下
載的五種電子產品的網路評論(包括兩個品牌的數碼相機,手機,MP3 和DVD 播放器).其中他們將這些語料按句
子為單元詳細標註了評價物件,情感句的極性及強度等資訊.因此,該語料適合於評價物件抽取和句子級主客觀
識別,以及情感分類方法的研究.此外,Liu 還貢獻了比較句研究[74]方面的語料.
3. (可下載)Janyce Wiebe 等人所開發的MPQA(Multiple-Perspective QA)庫:包含535 篇不同視角的新聞評論,它是一個進行了深度標註的語料庫.其中標註者為每個子句手工標註出一些情感資訊,如觀點持有者,評價物件,主觀表示式以及其極性與強度.文獻[75]描述了整個的標註流程.MPQA 語料適合於新聞評論領域任務的研究.
4. 麻省理工學院(MIT)的Barzilay 等人構建的多角度餐館評論語料:共4,488 篇,每篇語料分別按照五個角
度(飯菜,環境,服務,價錢,整體體驗)分別標註上1~5 個等級.這組語料為單文件的基於產品屬性的情感文摘提供
了研究平臺.
5. 國內的中科院計算所的譚鬆波博士提供的較大規模的中文酒店評論語料:約有10,000 篇,並標註了褒貶
類別,可以為中文的篇章級的情感分類提供一定的平臺.
4.2.2 情感分析的詞典資源
情感分析發展到現在,有不少前人總結出來的情感資源,大多數表現為評價詞詞典資源.
1. GI(General Inquirer)評價詞詞典(英文,

http://www.wjh.harvard.edu/~inquirer/).該詞典收集了1,914 個褒義詞和2,293 個貶義詞,併為每個詞語按照極性,強度,詞性等打上不同的標籤,便於情感分析任務中的靈活應用.
2. NTU 評價詞詞典(繁體中文).該詞典由臺灣大學收集,含有2,812 個褒義詞與8,276 個貶義詞[76].
3.(可下載) 主觀詞詞典(英文,http://www.cs.pitt.edu/mpqa/).該詞典的主觀詞語來自OpinionFinder 系統,該詞典含有8,221 個主觀詞,併為每個詞語標註了詞性,詞性還原以及情感極性.
4. (可下載)HowNet 評價詞詞典(簡體中文、英文,
http://www.keenage.com/html/e_index.html
).該詞典包含9,193 箇中文評價詞語/短語, 9,142 個英文評價詞語/短語,並被分為褒貶兩類.其中,該詞典提供了評價短語,為情感分析提供了更豐富的情感資源.

porter stemmer 處理詞語的失態問題 create created之類的??

【論文+(申請)下載:基於SentiWordNet的高準確率/覆蓋率新情感詞典SentiWords(155,286 words)】《SentiWords: Deriving a High Precision and High Coverage Lexicon for Sentiment Analysis》L Gatti, M Guerini, M Turchi (2015) http://t.cn/RUxgfXw project page:http://t.cn/RUxgVjT

named entity recognizers LingPipe
LingPipe is tool kit for processing text using computational linguistics. LingPipe is used to do tasks like:

Find the names of people, organizations or locations in news
Automatically classify Twitter search results into categories
Suggest correct spellings of queries
http://alias-i.com/lingpipe/

1.NLTK
NLTK 在用 Python 處理自然語言的工具中處於領先的地位。它提供了 WordNet 這種方便處理詞彙資源的藉口,還有分類、分詞、除莖、標註、語法分析、語義推理等類庫。

安裝
安裝 NLTK:

sudo pip install -U nltk
安裝 Numpy (可選):

sudo pip install -U numpy
安裝測試:

python then type import nltk

體驗過它加的nlp,

2.Pattern
Pattern 的自然語言處理工具有詞性標註工具(Part-Of-Speech Tagger),N元搜尋(n-gram search),情感分析(sentiment analysis),WordNet。支援機器學習的向量空間模型,聚類,向量機。

安裝:
pip install pattern
3.TextBlob
TextBlob 是一個處理文字資料的 Python 庫。提供了一些簡單的api解決一些自然語言處理的任務,例如詞性標註、名詞短語抽取、情感分析、分類、翻譯等等。

安裝:
pip install -U textblob
4.Gensim
Gensim 提供了對大型語料庫的主題建模、檔案索引、相似度檢索的功能。它可以處理大於RAM記憶體的資料。作者說它是“實現無干預從純文字語義建模的最強大、最高效、最無障礙的軟體。”

網站:

安裝:

pip install -U gensim
5.PyNLPI
它的全稱是:Python自然語言處理庫(Python Natural Language Processing Library,音發作: pineapple) 這是一個各種自然語言處理任務的集合,PyNLPI可以用來處理N元搜尋,計算頻率表和分佈,建立語言模型。他還可以處理向優先佇列這種更加複雜的資料結構,或者像 Beam 搜尋這種更加複雜的演算法。

安裝:

LInux:

sudo apt-get install pymol
Fedora:

yum install pymol
6.spaCy
這是一個商業的開源軟體。結合Python和Cython,它的自然語言處理能力達到了工業強度。是速度最快,領域內最先進的自然語言處理工具。

安裝:
pip install spacy
7.Polyglot
Polyglot 支援對海量文字和多語言的處理。它支援對165種語言的分詞,對196中語言的辨識,40種語言的專有名詞識別,16種語言的詞性標註,136種語言的情感分析,137種語言的嵌入,135種語言的形態分析,以及69中語言的翻譯。

安裝
pip install polyglot

8.MontyLingua
MontyLingua 是一個自由的、訓練有素的、端到端的英文處理工具。輸入原始英文文字到 MontyLingua ,就會得到這段文字的語義解釋。適合用來進行資訊檢索和提取,問題處理,回答問題等任務。從英文文字中,它能提取出主動賓元組,形容詞、名詞和動詞短語,人名、地名、事件,日期和時間,等語義資訊。

9.BLLIP Parser
BLLIP Parser(也叫做Charniak-Johnson parser)是一個集成了產生成分分析和最大熵排序的統計自然語言工具。包括 命令列 和 python介面 。

10.Quepy
Quepy是一個Python框架,提供將自然語言轉換成為資料庫查詢語言。可以輕鬆地實現不同型別的自然語言和資料庫查詢語言的轉化。所以,通過Quepy,僅僅修改幾行程式碼,就可以實現你自己的自然語言查詢資料庫系統。