1. 程式人生 > >Python爬取微博APP

Python爬取微博APP

全文簡介

本文是用Python爬取微博移動端的資料。可以看一下Robots協議。另外儘量不要爬取太快。如果你毫無節制的去爬取別人資料,別人網站當然會反爬越來越嚴厲。所以,不要難為別人,到最後其實是在難為你自己。至於為什麼不爬PC端,原因是移動端較簡單,很適合爬蟲新手入門。有時間再寫PC端吧!

環境介紹

網頁分析

以獲取評論資訊為例(你可以以自己的喜好獲得其他資料)。如下圖:

在這裡就會涉及到一個動態載入的概念,也就是我們只有向下滑動滑鼠滾輪才會加載出更多的評論資料。這也是網頁經常使用的方式。接下來就應該找到評論資訊的真實網址,找到真實網址的方法就是開啟瀏覽器的開發者工具,火狐/谷歌是F12鍵。開啟如下:

開啟以後點選網路,網路用來記錄瀏覽器和伺服器交換的資訊。接下來將滑鼠滾輪緩慢向下滾動,在這個過程中就會彈出類似於上圖的資訊,也就是評論資訊加載出來了。找到評論資訊,應該會在第一條。如下圖:

將網址在火狐裡面開啟如下圖:

上面的網址其實pages=3就代表第三頁,所以只需模擬網址即可,pages=4,5,6。。。。

另外由於是Json檔案,所以提取資料非常方便,只需用切片操作即可。

Python程式碼

程式碼寫的醜,湊合著看吧。