1. 程式人生 > >[原始碼和文件分享]基於Python實現的論壇帖子情感分析

[原始碼和文件分享]基於Python實現的論壇帖子情感分析

一、課程專案

Scuinfo文字分類分析

二、專案類容

爬取川大匿名社群SCUinfo在一段時間內的帖子,對其進行情感分類分析,包括情緒分類(積極,消極),帖子內容關聯分析等。

三、個人工作完成報告

3.1 工作概述

負責資料收集、預處理以及簡單的情感分析

3.2 爬蟲方案

scuinfo為動態載入網頁,並且有移動端驗證,嘗試使用scrapy爬取資料失敗,需要對爬蟲進行大量定製優化,為了提高開發效率,最終使用了之前爬取QQ空間採用的方式:使用selenium庫呼叫firefox瀏覽器驅動,該再通過程式碼模擬人為操作瀏覽器。獲取到對應頁面資料後,使用etree和xpath選取相應的目標節點資料。

  • 優點:輕鬆解決網頁動態載入,登入驗證,移動端驗證等問題

  • 缺點:該方式需要一直保持瀏覽器前臺執行,並且只能為單執行緒模式,爬取效率相對較低

關鍵程式碼如下所示:

 


參考文件和完整的文件和原始碼下載地址:

https://www.write-bug.com/article/1272.html