1. 程式人生 > >爬蟲抓取美團網上所有商家資訊

爬蟲抓取美團網上所有商家資訊

由於美團網對於IP訪問次數有限制,當訪問達到一定次數美團會增加延遲,訪問次數再增加時就會有驗證碼,所以爬取時就需要注意控制訪問的頻率,以及訪問一定次數後更換代理IP.

在爬取過程中我們可以先抓取所有的城市資料所有城市資料.


檢視頁面程式碼時發現很有規律,所以可以很容易抓取:


獲取到城市的資料儲存到txt檔案中,接下來 我們就要先獲取到分類資訊:



獲取這些資料到時候用來拼接成url連結,由於美團商家資料有些是用ajax載入的,雖然有辦法處理 但是比較麻煩所以我覺定,分類獲取區/縣和商圈  這樣就可以不用處理ajax載入的情況.


再拼接之前獲取到的型別,這樣我們就可以獲取到一個商圈的一個小類,這是比較小的範圍所以沒有太多的商家,為了方便下次爬取資料,我先把商家的url儲存下來,再進到每個商家裡獲取資料.


獲取到所有的商家的url後,現在就到我們的最後一步了,但是要注意的是不同種類型的資料頁面是不同的.比如酒店



所以對於不同種類型,需要寫不同的解析函式.最後就是爬取的時候不應該追求快,美團限制很嚴,最好多執行緒  幾秒請求一次.接下來就慢慢讓它跑了.最後我跑了兩個多星期才跑完全部.

分為四大類:


電影院 8195個  


酒店 211129


美食大類  490928


生活大類  432803


總共  115萬 條資料 

這裡就只說明爬取的邏輯  不提供程式碼,有能力的同學自己寫,沒能力問別人怎麼寫.

日期 2017-04-04

如果需要這份資料  可以聯絡我:zhenpeng_lin#qq.com     #換成@