1. 程式人生 > >【python 走進NLP】利用SnowNLP 訓練自己的情感分析庫

【python 走進NLP】利用SnowNLP 訓練自己的情感分析庫

介紹
SnowNLP是一個python寫的類庫,可以方便的處理中文文字內容。可以做很多事情,如:

中文分詞(Character-Based Generative Model)
詞性標註(TnT 3-gram 隱馬)
情感分析(現在訓練資料主要是買賣東西時的評價,所以對其他的一些可能效果不是很好,待解決)
文字分類(Naive Bayes)
轉換成拼音(Trie樹實現的最大匹配)
繁體轉簡體(Trie樹實現的最大匹配)
提取文字關鍵詞(TextRank演算法)
提取文字摘要(TextRank演算法)
tf,idf
Tokenization(分割成句子)
文字相似(BM25)

安裝:

pip install snownlp

訓練
現在提供訓練的包括分詞,詞性標註,情感分析,而且都提供了用來訓練的原始檔案

# 中文分詞訓練庫
from snownlp import seg
seg.train('data.txt')
seg.save('seg.marshal')
# 詞性標註訓練庫
from snownlp import tag
tag.train('199801.txt')
tag.save('tag.marshal')
#情感分析訓練庫
from snownlp import sentiment
sentiment.train('neg.txt', 'pos.txt')
sentiment.save('sentiment.marshal')

這樣訓練好的檔案就儲存為sentiment.marshal了,之後修改snownlp/sentiment/init.py裡的data_path指向剛訓練好的檔案即可
找到SnowNLP 安裝目錄,如下:
在這裡插入圖片描述

放進去積極的文字,和消極的文字,進行訓練即可。