1. 程式人生 > >【自然語言處理】預測電影影評情感的深度學習詞袋模型

【自然語言處理】預測電影影評情感的深度學習詞袋模型

翻譯自外網:https://machinelearningmastery.com/deep-learning-bag-of-words-model-sentiment-analysis/

教程概述:

1.電影評論集
2.資料準備
3.詞包表示法
4.情感分析模型

1.電影評論集

資料集介紹:該資料集是由1000正1000負的IMDB網站的電影評論組成

2.資料準備

在這一節中,我們將完成3件事:
1、將資料分離成訓練和測試集。
2、載入和清除資料
3、定義詞庫

分離成訓練和測試集我們將使用最後100個正面評論和最後100個負面評論作為測試集(100個評論),剩下的1800個評論作為訓練集。即:90%訓練集,10%測試集。評論編號000至899是訓練資料,評論編號從900起是測試資料。


資料的裝載和清理clean_doc()文字資料已經相當乾淨,所以不需要太多的準備。我們將使用以下方法準備資料:
1、以空格分割資料
2、從單詞中刪除所有標點符號
3、刪除所有非純字母組成的單詞。
4、刪除所有已知的停用詞。
5、刪除所有長度<= 1的字元。

定義詞庫:我們可以開發一個詞彙表作為計數器,遍歷所有評論,將評論中的詞彙加入詞庫中。