爬蟲抓取糯米網上所有商家資料

阿新 • • 發佈：2019-01-12

前段時間寫了爬取美團商家資訊的部落格爬蟲抓取美團網上所有商家資訊 ,這次說說爬取糯米網,由於某些原因無法提供原始碼,但是,程式碼不是關鍵,最關鍵的是思想,懂了思想,程式碼是很容易寫的.

爬蟲最重要的是分析請求過程,按照實際請求過程去請求資料.

分析是否需要處理cookie,有些網站比較嚴格請求某些介面的資料時是需要cookie,獲取cookie的連結一般是首頁,一般的系統會有一個JsessionId 來保持會話.從你訪問一個頁面開始伺服器就會返回這個JsessionId給你,但是訪問某些介面,沒有帶這個cookie,伺服器就不會返回資料給你, 這個可以看看我之前寫的使用python爬取12306上面所有車次資料

,在爬取12306時就需要處理cookie.

分析網站的請求限制,由於爬蟲會增加他們伺服器壓力,流量浪費,資料損失.所以很多網站都會有請求次數的限制.但是他們資料既然是開放的,就一定可以爬取到.只是付出的代價大小的問題.一般會根據ip來限制請求,請求到一定次數時會有驗證碼. 比如在爬天眼查的資料時,就遇到這個問題.可以使用代理.現在獲取代理很容易,也很便宜.

分析網站的資料是否是通過ajax載入的,返回的資料是否有加密.一般這種情況可以使用無介面的瀏覽器來請求,瀏覽器中會自己處理好這些事情.

抓取頁面,解析想要資料,這個就比較簡單了.頁面已經抓取下來了,可以使用一些開源的框架解析頁面中資料,也可以使用正則.

下面分析如何抓取糯米網上的資料.

經過分析發現糯米不需要處理cookie,沒有ajax載入的情況,有請求的限制,所以就只需要使用代理就可以了.

我們現在分析要如何才能爬取全部資料.

從連結https://bj.nuomi.com/364/307-1388 可以猜測 bj就是北京, 364是火鍋的分類,307-1388就是地區.提前收集這些資料後面爬取的時候直接拼接就可以,方便快捷.

這裡我只整理到城市,沒有整理到區,所以區和商圈是我們爬取時需要處理,可以先拼接城市和分類然後獲取區/縣

再遍歷區縣,獲取商圈,再遍歷,最後就可以獲取團購資料

# 區/縣
def getArea(cityUrl,cityName,type,subType,subTypeCode):
    url=cityUrl+"/"+subTypeCode
    soup=download_soup_waitting(url)
    try:
        geo_filter_wrapper=soup.find("div",attrs={"class":"filterDistrict"})
        J_filter_list=geo_filter_wrapper.find("div",attrs={"class":"district-list-ab"})
        lis=J_filter_list.findAll("a")
        for li in lis :
            # a=li.find("a")
            url='http:'+li['href']
            area=li.text
            getSubArea(url,area,cityName,type,subType)
    except:
        getBusiness(url,"","",cityName,type,subType)

# 商圈
def getSubArea(url,area,cityName,type,subType):
    soup=download_soup_waitting(url)
    geo_filter_wrapper=soup.find("div",attrs={"class":"district-sub-list-ab"})
    if geo_filter_wrapper==None:
        getBusiness(url,"",area,cityName,type,subType)
        return
    lis=geo_filter_wrapper.findAll("a")[1:]
    for li in lis :
        # a=li.find("a")
        url=li['href']
        subArea=li.text
        getBusiness("http:"+url,subArea,area,cityName,type,subType)

現在就來分析團購資訊,

可以發現這不是商家,而是團購的商品,說明這些團購後面有很多是同個商家.我們分兩層來爬取,因為這一層是有順序的一個城市一個類別的爬.但是通過團購獲取商家資訊是沒有順序的.

爬取這一層之後的結果如下.

這一層是無法獲取商家的更詳細的資訊,但是通過這個團購連結就可以獲取到更加詳細的資訊.我們對這些團購連結進行排重,然後進行第二層爬取.

這裡就是我們需要的資料,但是在實際爬取時發現抓取到的頁面沒有這個資料.可以猜測這是通過ajax來載入的.

立刻開啟firebug,重新整理頁面

發現果然和我的猜想是一樣的這塊資料是通過ajax來載入的,檢視連結發現,只要獲取到dealid就可以拼接連結了.

最後只要只要對抓取的資料進行解析儲存就可以了.

分析完全部的過程,寫完程式碼,就可以讓程式慢慢跑了,我的這個資料是運行了一個月才有結果.然後對資料進行整理.最終的資料如下:

糯米美食 453792條資料

糯米生活 149002條資料

糯米娛樂 74932條資料

糯米麗人 73123條資料

總的資料 750849 條資料

時間:20170404

技術問題或者要這份資料可以聯絡 zhenpeng_lin#qq.com #換為@

爬蟲抓取糯米網上所有商家資料

爬蟲抓取糯米網上所有商家資料

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

用python爬蟲抓取視訊網站所有電影

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

爬蟲抓取美團網上所有商家資訊

爬蟲實戰-酷狗音樂資料抓取--XPath，Pyquery,Beautifulsoup資料提取對比實戰

第一個Python爬蟲-抓取煎蛋網上圖片

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

Python爬蟲抓取動態資料

使用爬蟲抓取網站非同步載入資料

大眾點評各城市熱門餐廳資料爬蟲抓取

nodejs爬蟲抓取非同步資料案例

java爬蟲抓取資料，儲存為excel檔案

最新python爬蟲抓取新浪微博千萬級資料，scrapy思路+架構+原始碼

node.js 小爬蟲抓取網頁資料（2）

Java簡單實現爬蟲技術，抓取整個網站所有連結+圖片+檔案（思路+程式碼）

Python selenium爬蟲抓取船舶網站資料（動態頁面）

如果你不會Python多程序！那你會爬蟲？扯淡！抓取拉鉤網十萬資料

使用selenium爬蟲抓取資料

爬蟲抓取糯米網上所有商家資料

相關推薦