1. 程式人生 > >如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼(下)

如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼(下)

CA external 令行 sta 項目 程序 str 輸入 tar

前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇(理論篇),今天給大家分享一下代碼實現(實戰篇),接著上篇往下繼續深入。

一、代碼實現

1、修改Scrapy項目中的items.py文件。我們需要獲取的數據是朋友圈和發布日期,因此在這裏定義好日期和動態兩個屬性,如下圖所示。

技術分享圖片

2、修改實現爬蟲邏輯的主文件moment.py,首先要導入模塊,尤其是要主要將items.py中的WeixinMomentItem類導入進來,這點要特別小心別被遺漏了。之後修改start_requests方法,具體的代碼實現如下圖。

技術分享圖片

3、修改parse方法,對導航數據包進行解析,代碼實現稍微復雜一些,如下圖所示。

技術分享圖片

  • l需要註意的是從網頁中獲取的response是bytes類型,需要顯示的轉為str類型才可以進行解析,否則會報錯。
  • l在POST請求的限定下,需要構造參數,需要特別註意的是參數中的年、月和索引都需要是字符串類型的,否則服務器會返回400狀態碼,表示請求參數錯誤,導致程序運行的時候報錯。
  • l在請求參數還需要加入請求頭,尤其是Referer(反盜鏈)務必要加上,否則在重定向的時候找不到網頁入口,導致報錯。
  • l上述的代碼構造方式並不是唯一的寫法,也可以是其他的。

4、定義parse_moment函數,來抽取朋友圈數據,返回的數據以JSON加載的,用JSON去提取數據,具體的代碼實現如下圖所示。

技術分享圖片

5、在setting.py文件中將ITEM_PIPELINES取消註釋,表示數據通過該管道進行處理。

技術分享圖片

6、之後就可以在命令行中進行程序運行了,在命令行中輸入scrapy crawl moment -o moment.json,之後可以得到朋友圈的數據,在控制臺上輸出的信息如下圖所示。

技術分享圖片

7、爾後我們得到一個moment.json文件,裏面存儲的是我們朋友圈數據,如下圖所示。

技術分享圖片

8、嗯,你確實沒有看錯,裏邊得到的數據確實讓人看不懂,但是這個並不是亂碼,而是編碼的問題。解決這個問題的方式是將原來的moment.json文件刪除,之後重新在命令行中輸入下面的命令:scrapy crawl moment -o moment.json -s FEED_EXPORT_ENCODING=utf-8,此時可以看到編碼問題已經解決了,如下圖所示。

技術分享圖片

下一篇文章,小編帶大家將抓取到的朋友圈數據進行可視化展示,敬請關註~~

如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼(下)