爬蟲實例利用Ajax爬取微博數據

阿新 • • 發佈：2018-12-07

alt b2b 每次 png 微博可變實例我們 images

隨著代理IP技術的普及，爬蟲的使用也變得簡單起來，許多企業和個人都開始用爬蟲技術來抓取數據。那麽今天就來分享一個爬蟲實例，幫助你們更好的理解爬蟲。下面我們用程序模擬Ajax請求，將我的前10頁微博全部爬取下來。
首先，定義一個方法來獲取每次請求的結果。在請求時，page是一個可變參數，所以我們將它作為方法的參數傳遞進來，相關代碼如下：
技術分享圖片

首先，這裏定義了base_url來表示請求的URL的前半部分。接下來，構造參數字典，其中type、value和containerid是固定參數，page是可變參數。接下來，調用urlencode()方法將參數轉化為URL的GET請求參數，即類似於type=uid&value=2830678474&containerid=1076032830678474&page=2這樣的形式。隨後，base_url與參數拼合形成一個新的URL。接著，我們用requests請求這個鏈接，加入headers參數。然後判斷響應的狀態碼，如果是200，則直接調用json()方法將內容解析為JSON返回，否則不返回任何信息。如果出現異常，則捕獲並輸出其異常信息。

隨後，我們需要定義一個解析方法，用來從結果中提取想要的信息，比如這次想保存微博的id、正文、贊數、評論數和轉發數這幾個內容，那麽可以先遍歷cards，然後獲取mblog中的各個信息，賦值為一個新的字典返回即可：
技術分享圖片
這裏我們借助pyquery將正文中的HTML標簽去掉。
最後，遍歷一下page，一共10頁，將提取到的結果打印輸出即可：

另外，我們還可以加一個方法將結果保存到MongoDB數據庫：

這樣所有功能就實現完成了。運行程序後，樣例輸出結果如下：
技術分享圖片
查看一下MongoDB，相應的數據也被保存到MongoDB，如下圖所示。

這樣，我們就順利通過分析Ajax並編寫爬蟲爬取下來了微博列表。通過這個實例，我們主要學會了怎樣去分析Ajax請求，怎樣用程序來模擬抓取Ajax請求。

爬蟲實例利用Ajax爬取微博數據

alt b2b 每次 png 微博可變實例我們 images 隨著代理IP技術的普及，爬蟲的使用也變得簡單起來，許多企業和個人都開始用爬蟲技術來抓取數據。那麽今天就來分享一個爬蟲實例，幫助你們更好的理解爬蟲。下面我們用程序模擬Ajax請求，將我的前10頁微博全部爬取下

爬蟲實例利用Ajax爬取微博數據

爬蟲實例利用Ajax爬取微博數據

爬蟲例項利用Ajax爬取微博資料

用python爬取微博數據並生成詞雲

python小白也可以分分鐘爬取微博數據，並生成有個性的詞雲，你get到了嗎？

爬蟲實例之selenium爬取淘寶美食

利用python爬取龍虎榜數據及後續分析

抓取微博數據,如何防護爬蟲被墻

爬蟲實例(一)——爬取微博動態

python爬蟲：利用python爬取微信好友,獲得男女比例。

Python爬蟲案例：利用Python爬取笑話網

Python爬蟲實戰 requests+beautifulsoup+ajax 爬取半次元Top100的cos美圖

jsoup爬蟲技術及爬取微博資料例項

python爬蟲學習筆記分析Ajax爬取果殼網文章

推薦｜23個Python爬蟲開源專案程式碼：爬取微信、淘寶、豆瓣、知乎、微博等

爬蟲小白——利用pycharm爬取網頁內容

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

python 爬取微博信息

Python——爬取人口遷徙數據（以騰訊遷徙為例）

python爬取微博圖片數據存到Mysql中遇到的各種坑python Mysql存儲圖片

通過微博搜尋爬取微博

爬蟲實例 利用Ajax爬取微博數據

相關推薦

爬蟲實例利用Ajax爬取微博數據