【python 走進NLP】利用SnowNLP 訓練自己的情感分析庫
阿新 • • 發佈:2018-11-03
介紹
SnowNLP是一個python寫的類庫,可以方便的處理中文文字內容。可以做很多事情,如:
中文分詞(Character-Based Generative Model)
詞性標註(TnT 3-gram 隱馬)
情感分析(現在訓練資料主要是買賣東西時的評價,所以對其他的一些可能效果不是很好,待解決)
文字分類(Naive Bayes)
轉換成拼音(Trie樹實現的最大匹配)
繁體轉簡體(Trie樹實現的最大匹配)
提取文字關鍵詞(TextRank演算法)
提取文字摘要(TextRank演算法)
tf,idf
Tokenization(分割成句子)
文字相似(BM25)
安裝:
pip install snownlp
訓練
現在提供訓練的包括分詞,詞性標註,情感分析,而且都提供了用來訓練的原始檔案
# 中文分詞訓練庫 from snownlp import seg seg.train('data.txt') seg.save('seg.marshal') # 詞性標註訓練庫 from snownlp import tag tag.train('199801.txt') tag.save('tag.marshal') #情感分析訓練庫 from snownlp import sentiment sentiment.train('neg.txt', 'pos.txt') sentiment.save('sentiment.marshal')
這樣訓練好的檔案就儲存為sentiment.marshal了,之後修改snownlp/sentiment/init.py裡的data_path指向剛訓練好的檔案即可
找到SnowNLP 安裝目錄,如下:
放進去積極的文字,和消極的文字,進行訓練即可。