1. 程式人生 > >新浪微博評論爬蟲小DEMO

新浪微博評論爬蟲小DEMO

微博模擬登陸(使用者手動輸入):
(1) POST代理
(2) COOKIE登陸
http://www.cnblogs.com/EmilySun/p/6158147.html
Chrome瀏覽器開啟m.weibo.cn,右鍵點選檢查-> Network->XHR 複製cookie

獲取該微博的唯一標識RID(getRid函式):
在網頁原始碼中可以檢視到rid=4078300244786067
這裡寫圖片描述

'http://weibo.com/aj/v6/comment/big?ajwvr=6&id=%s&filter=all&page=%d' % (rid,i)

Filter=all 是獲取全部的評論
Filter=hot是獲取熱門的評論
Request URL開啟是一個json格式的網頁,關鍵字有:
code
msg
data:{‘html’,’page’,’count’}
其中html裡儲存了評論內容、評論時間,count儲存了評論個數,page儲存了總的評論頁數

獲取評論(getCommentPages函式)
根據rid和page,可以獲得每頁的評論內容,用re稍微處理後即可儲存在本地中