美團西安酒店資料爬取（Python）

阿新 • • 發佈：2019-01-17

一、找到存放資料的檔案，分析其url

首先開啟美團酒店部分頁面，審查元素network裡面的xhr部分，會發現一個HotelSearch******的檔案如下圖選中點開的部分：

發現所在頁面的酒店存在此檔案裡，然後找出此檔案的Headers，如下圖：

Request URL很長，分析其組成發現：

前半部分是固定的，一直到uuid部分，uuid為Query String Parameters部分引數，重新整理幾次發現，uuid前半部分不變，@之後的部分會有變化，猜測此為時間戳，實踐證明確實如此，我需要爬取西安的資料，因此cityid是固定的，觀察發現offset為每頁第一個商家的編號，每頁20個商家，因此limit=20，startDay，endDay的含義顯而易見，按照預設順序因此sort=defaults，切換限制條件發現Query String Parameters部分X-FOR-WITH部分引數不變，由此構成url最後一部分，其中部分‘+’，‘=’符號需要修改，具體修改規則我目前還不瞭解，但是這部分不變，我就可以直接貼上url過來用。

二、獲取各個商圈id

不選擇任何限制條件的情況下，美團酒店部分只顯示51頁資料，因此需要分割槽域獲取，可以選擇行政區/商圈、地鐵站、高校、車站/機場、旅遊景點、醫院等，為了不漏掉部分酒店，選擇拿到這些分類的所有id，以下是這部分程式

import requests  
from lxml import html   
import random
import json
import csv
from bs4 import BeautifulSoup
with open(r'C:\Users\Hanju\Desktop\美團西安酒店.csv',"w", newline='',encoding='UTF-8') as csvfile: 
    writer = csv.writer(csvfile)
    writer.writerow(['網站名','品類','商家名稱','地址'])      
    url='http://hotel.meituan.com/xian/'
    User_Agent_List = [
        'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; LCTE; rv:11.0) like Gecko',
        'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; LCTE; rv:11.0) like Gecko',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
        'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
        'Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
        'Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
        'Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
        'MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)',
        'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    ] 
    headers={'User-Agent':random.choice(User_Agent_List)}
    page = requests.get(url=url,headers=headers)
    html=page.text
    text=html.encode('ISO-8859-1').decode('utf-8')
    bf=BeautifulSoup(text,'lxml')
    tag=bf.find_all('script')
    content=str(tag[1])[252:-15]
    result=json.loads(content)
    location=result['location']['columns']  
    #行政劃分/商圈
    arealist=[]
    for item in location[1]['items']:
        area=item['items']
        for subarea in area:
            arealist.append(subarea['id'])           
    #地鐵線
    linelist=[]
    for item in location[2]['items'][1:]:
        area=item['items']
        for subarea in area:
            linelist.append(subarea['id'])           
    #高校
    collegelist=[]
    for item in location[3]['items']:
        group=item['items']
        for college in group:
            collegelist.append(college['id'])    
    #車站/機場
    airportRailwaylist=[]
    for item in location[4]['items']:
        airportRailwaylist.append((item['id']))    
    #旅遊景點
    scenicSpotlist=[]
    for item in location[5]['items']:
        group=item['items']
        for spot in group:
            scenicSpotlist.append((spot['id']))    
    #醫院
    hospitallist=[]
    for item in location[6]['items']:
        group=item['items']
        for hospital in group:
            hospitallist.append(hospital['id'])
print(arealist)
print(linelist)
print(collegelist)
print(airportRailwaylist)
print(scenicSpotlist)
print(hospitallist)

執行結果將各個列表打印出來，如下

[113, 6835, 7137, 900, 8976, 897, 898, 899, 908, 7402, 7404, 8974, 8975, 9012, 15634, 15639, 15642, 15643, 15664, 15667, 15784, 15785, 116, 907, 910, 1099, 4763, 6836, 7403, 8977, 8978, 8979, 8984, 15630, 15632, 15635, 15640, 15641, 119, 8980, 8983, 8991, 15629, 15631, 15633, 15636, 15637, 15638, 15646, 15647, 115, 8981, 903, 7479, 7405, 904, 905, 906, 6839, 7408, 7480, 8982, 14024, 14025, 117, 909, 7407, 7478, 7477, 7406, 8950, 7140, 8951, 8952, 7141, 7138, 9309, 9477, 13026, 25592, 37367, 114, 7476, 7142, 901, 6838, 902, 7143, 8985, 14026, 18674, 36710, 37380, 4251, 7398, 7399, 7400, 7401, 14199, 16010, 16013, 25659, 4253, 8986, 8987, 8989, 8990, 17228, 235, 7145, 7146, 7147, 7148, 15644, 15645, 15665, 15666, 15668, 4257, 16938, 25170, 25171, 7149, 25713, 25715, 25717, 25719, 25721, 4254, 23761, 23762, 23763, 4255, 22410, 22416, 118, 4256, 22405, 22408, 26289, 26295, 33947]
[87, 1742, 1747, 1748, 1740, 1756, 1749, 1743, 1751, 1752, 1754, 1758, 1755, 1741, 1750, 1746, 1745, 1757, 1744, 1753, 51, 1737, 1736, 1739, 1738, 1183, 1182, 1181, 1180, 1179, 1178, 1177, 1176, 1175, 1174, 1173, 1172, 1171, 1170, 1169, 1168, 1167, 156, 4261, 4238, 4241, 4259, 4255, 4253, 4249, 4251, 4257, 4245, 4250, 4258, 4240, 4244, 4243, 4247, 4242, 4236, 4248, 4239, 4260, 4254, 4256, 4237, 4246, 4252]
[4964, 4946, 5911, 5912, 5913, 5914, 5915, 4937, 4938, 4940, 4941, 4942, 4944, 4945, 4948, 4949, 4954, 4955, 4958, 4971, 4980]
[101, 102, 103]
[9778, 843, 845, 847, 848, 851, 860, 863, 864, 871, 872, 27508, 9775, 31363, 20730, 20732, 844, 858, 29062, 29119, 9773, 9776, 27506, 9772, 9774, 9777, 20731, 10494, 10496, 841, 850, 854, 27487, 866, 27492, 869, 29061, 10355, 10356, 853, 857, 27483, 861, 865, 867, 868]
[20718, 20723, 20728, 25535, 25548, 25551, 25553, 24149, 24150, 20706, 27449, 25533, 25537, 25539, 25540, 25541, 25544, 25546, 25549, 25552]

下面按照url組成規則，按照列表遍歷，程式碼如下：

import requests  
from lxml import html   
import random
import json
import time
import csv
with open(r'C:\Users\Hanju\Desktop\美團西安酒店.csv',"w", newline='',encoding='UTF-8') as csvfile: 
    writer = csv.writer(csvfile)
    writer.writerow(['網站名','品類','商家名稱','地址']) 
    AreaList=[113, 6835, 7137, 900, 8976, 897, 898, 899, 908, 7402, 7404, 8974, 8975, 9012, 15634, 15639, 15642, 15643, 15664, 15667, 15784, 15785, 116, 907, 910, 1099, 4763, 6836, 7403, 8977, 8978, 8979, 8984, 15630, 15632, 15635, 15640, 15641, 119, 8980, 8983, 8991, 15629, 15631, 15633, 15636, 15637, 15638, 15646, 15647, 115, 8981, 903, 7479, 7405, 904, 905, 906, 6839, 7408, 7480, 8982, 14024, 14025, 117, 909, 7407, 7478, 7477, 7406, 8950, 7140, 8951, 8952, 7141, 7138, 9309, 9477, 13026, 25592, 37367, 114, 7476, 7142, 901, 6838, 902, 7143, 8985, 14026, 18674, 36710, 37380, 4251, 7398, 7399, 7400, 7401, 14199, 16010, 16013, 25659, 4253, 8986, 8987, 8989, 8990, 17228, 235, 7145, 7146, 7147, 7148, 15644, 15645, 15665, 15666, 15668, 4257, 16938, 25170, 25171, 7149, 25713, 25715, 25717, 25719, 25721, 4254, 23761, 23762, 23763, 4255, 22410, 22416, 118, 4256, 22405, 22408, 26289, 26295, 33947]
    linelist=[87, 1742, 1747, 1748, 1740, 1756, 1749, 1743, 1751, 1752, 1754, 1758, 1755, 1741, 1750, 1746, 1745, 1757, 1744, 1753, 51, 1737, 1736, 1739, 1738, 1183, 1182, 1181, 1180, 1179, 1178, 1177, 1176, 1175, 1174, 1173, 1172, 1171, 1170, 1169, 1168, 1167, 156, 4261, 4238, 4241, 4259, 4255, 4253, 4249, 4251, 4257, 4245, 4250, 4258, 4240, 4244, 4243, 4247, 4242, 4236, 4248, 4239, 4260, 4254, 4256, 4237, 4246, 4252]
    collegelist=[4964, 4946, 5911, 5912, 5913, 5914, 5915, 4937, 4938, 4940, 4941, 4942, 4944, 4945, 4948, 4949, 4954, 4955, 4958, 4971, 4980]
    airportRailwaylist=[101, 102, 103]
    scenicSpotlist=[9778, 843, 845, 847, 848, 851, 860, 863, 864, 871, 872, 27508, 9775, 31363, 20730, 20732, 844, 858, 29062, 29119, 9773, 9776, 27506, 9772, 9774, 9777, 20731, 10494, 10496, 841, 850, 854, 27487, 866, 27492, 869, 29061, 10355, 10356, 853, 857, 27483, 861, 865, 867, 868]
    hospitallist=[20718, 20723, 20728, 25535, 25548, 25551, 25553, 24149, 24150, 20706, 27449, 25533, 25537, 25539, 25540, 25541, 25544, 25546, 25549, 25552]
    Classlist=['areaId','stationId','college','airportRailway','scenicSpot','hospital']  （按照不同分類爬取url包含部分欄位不同，所以增加此列表）  
    List=[]
    List.append(AreaList)
    List.append(linelist)
    List.append(collegelist)
    List.append(airportRailwaylist)
    List.append(scenicSpotlist)
    List.append(hospitallist) 
    for i in range(6):
        class_=Classlist[i]
        for area in List[i]:
            for j in range(1,51):
                t = time.time()          
                url='https://ihotel.meituan.com/hbsearch/HotelSearch?utm_medium=pc&version_name=999.9&cateId=20&attr_28=129&uuid=65E4A4E1481DEB3C239CDBA5375883CCF0C2146B51BFFFE54C22EF25CBD163E7%40'+str(int(round(t*1000)))+'&cityId=42&offset='+str(i*20)+'&limit=20&startDay=20180622&endDay=20180622&q=&sort=defaults&'+class_+'='+str(area)+'&X-FOR-WITH=WP7OFM8BmAyEL3fwC1hndfJ8RQ9wvfF06ulowvEq%2FE618PEzTt99YDqwbv58Iv257lSroAb6wLUFiYrkczFTgE2Cfv2X93DXMuCAWKEPpr7fzIbbtrBGLHadYR4vFYiWlrvb3Lr%2FPi%2BoS3Gs92mFZA%3D%3D'
                User_Agent_List = [
            'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; LCTE; rv:11.0) like Gecko',
            'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; LCTE; rv:11.0) like Gecko',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
            'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
            'Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
            'Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
            'Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
            'MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
            'Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)',
            'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
                ] 
                headers={'User-Agent':random.choice(User_Agent_List)}
                page = requests.get(url=url, headers=headers)  
                html=page.text  
                result=json.loads(html)
                result1=result['data']
                result11=result1['searchresult']
                if result11:
                    print(class_+':'+str(area))
                    for item in result11:
                        Info_List=[]
                        Info_List.append('美團')
                        Info_List.append('酒店')
                        Info_List.append(item['name'])
                        Info_List.append(item['addr'])
                        writer.writerow(Info_List)
                    time.sleep(random.choice(range(1,4)))（隨機休眠）
                else:
                    break
print("Done")

下面是部分執行結果：

areaId:113
areaId:113
areaId:113
areaId:113

以下是寫入檔案的部分資料：

網站名,品類,商家名稱,地址
美團,酒店,錦江之星(西安東門店),碑林區柿園路163號（帝標大廈旁，近興慶宮公園、陝西省電力公司對面）
美團,酒店,如家酒店(西安南門地鐵站碑林博物館店),碑林區文藝北路甲字1號（文昌門外十字東南角）
美團,酒店,富海明都酒店(明城牆南門店),碑林區環城南路與文藝北路十字西南角（文昌門外，地鐵2號線永寧門站D2出口東行500米）
美團,酒店,鐘樓天成酒店(地鐵站回民街中心店),蓮湖區鐘樓北大街西華門十字西南角巨集府嘉會公寓C座7F（回民小吃街東100米，地鐵二號線鐘樓站A口50米）
美團,酒店,派酒店(西安碑林博物館和平門店),碑林區環城南路東段100號（和平門向東300米路南）
美團,酒店,銅川辦事處招待所(西京醫院康復路地鐵口店),新城區興慶路11號（西京醫院對面路東50米）
美團,酒店,布丁酒店(西安鐘樓中心店),碑林區東大街354號（端履門十字）
美團,酒店,卡森酒店(鐘鼓樓永興坊店),碑林區建國路88號新興大廈 （吳銘火鍋隔壁）
美團,酒店,星愉時尚連鎖酒店(西安李家村萬達廣場店),碑林區明勝街9號（李家村萬達廣場西門向西100米紫玉蘭亭旁）
美團,酒店,布丁酒店(西安大雁塔建築科技大學店),碑林區太乙路23號（太乙路十字向南200米路東，中鐵中學對面）
美團,酒店,巨集源酒店(鐘樓東大街店),新城區西一路與尚德路交匯處西20米（西一路116號）
美團,酒店,布丁酒店(西安鐘鼓樓東大街萬達廣場店),碑林區東大街132號（大差市十字向東100米路南玄風橋北巷內）
美團,酒店,國展商務酒店,碑林區長安北路14號省體育場內東南（近省體育局）
美團,酒店,7天連鎖酒店(西安小雁塔南稍門機場大巴店),碑林區友誼西路46號南稍門十字向西200米（南稍門地鐵站A口向西200米，天源浴場正對面）
美團,酒店,小米時尚酒店(李家村萬達店),碑林區雁塔北路1號（李家村十字東北角）
美團,酒店,萬諦美途酒店,碑林區文藝南路39號
美團,酒店,檸檬•漫莎酒店(西安鐘樓店),碑林區東大街與端履門交匯處西南角（鐘樓、回民街東800米）
美團,酒店,西安十間酒店(小雁塔店),碑林區朱雀大街北段72號合能朱闕2號樓1單元1710室
美團,酒店,斯特威新概念酒店,碑林區東大街與端履門交匯處向南100米雲龍大廈
美團,酒店,申鵬商務酒店(西安鐘樓東大街店),碑林區東大街132號（大差市十字南100米，距永興坊1000米）
美團,酒店,錦江之星(西安東門店),碑林區柿園路163號（帝標大廈旁，近興慶宮公園、陝西省電力公司對面）
美團,酒店,如家酒店(西安南門地鐵站碑林博物館店),碑林區文藝北路甲字1號（文昌門外十字東南角）
美團,酒店,富海明都酒店(明城牆南門店),碑林區環城南路與文藝北路十字西南角（文昌門外，地鐵2號線永寧門站D2出口東行500米）
美團,酒店,鐘樓天成酒店(地鐵站回民街中心店),蓮湖區鐘樓北大街西華門十字西南角巨集府嘉會公寓C座7F（回民小吃街東100米，地鐵二號線鐘樓站A口50米）
美團,酒店,派酒店(西安碑林博物館和平門店),碑林區環城南路東段100號（和平門向東300米路南）
美團,酒店,銅川辦事處招待所(西京醫院康復路地鐵口店),新城區興慶路11號（西京醫院對面路東50米）
美團,酒店,布丁酒店(西安鐘樓中心店),碑林區東大街354號（端履門十字）
美團,酒店,卡森酒店(鐘鼓樓永興坊店),碑林區建國路88號新興大廈 （吳銘火鍋隔壁）
美團,酒店,星愉時尚連鎖酒店(西安李家村萬達廣場店),碑林區明勝街9號（李家村萬達廣場西門向西100米紫玉蘭亭旁）
美團,酒店,布丁酒店(西安大雁塔建築科技大學店),碑林區太乙路23號（太乙路十字向南200米路東，中鐵中學對面）
美團,酒店,巨集源酒店(鐘樓東大街店),新城區西一路與尚德路交匯處西20米（西一路116號）
美團,酒店,布丁酒店(西安鐘鼓樓東大街萬達廣場店),碑林區東大街132號（大差市十字向東100米路南玄風橋北巷內）
美團,酒店,國展商務酒店,碑林區長安北路14號省體育場內東南（近省體育局）
美團,酒店,7天連鎖酒店(西安小雁塔南稍門機場大巴店),碑林區友誼西路46號南稍門十字向西200米（南稍門地鐵站A口向西200米，天源浴場正對面）
美團,酒店,小米時尚酒店(李家村萬達店),碑林區雁塔北路1號（李家村十字東北角）
美團,酒店,萬諦美途酒店,碑林區文藝南路39號
美團,酒店,檸檬•漫莎酒店(西安鐘樓店),碑林區東大街與端履門交匯處西南角（鐘樓、回民街東800米）
美團,酒店,西安十間酒店(小雁塔店),碑林區朱雀大街北段72號合能朱闕2號樓1單元1710室
美團,酒店,斯特威新概念酒店,碑林區東大街與端履門交匯處向南100米雲龍大廈

結束……

美團西安酒店資料爬取（Python）

美團西安酒店資料爬取（Python）

python爬蟲爬取美團西安美食資料

python:爬蟲之Post請求以及動態Ajax資料的爬取（3）

2019校招美團程式設計-圖的遍歷（JAVA）

【python筆記】騰訊動漫爬取（更新）

仿美團下拉重新整理控制元件（二）

利用Python進行百度文庫內容爬取（一）

QQ音樂爬取（python實現）

Python爬蟲周記之案例篇——基金凈值爬取（下）

一次驚險的跳槽面試經歷（阿里/美團/頭條/網易/有贊...)（yet）

將列表資料寫入檔案（python）檔案：txt，csv，excel

Titanic資料分析報告（python）

新浪微博資料探勘（python）本週人們在討論的熱門話題的提取

爬取美團網美食資料，看北京上海都愛吃些啥

Java資料爬取——爬取攜程酒店資料（二）

爬取美團網的美食點評資訊（含頁面分析過程）

Python網路資料爬取----網路爬蟲基礎（一）

Python爬蟲入門教程 3-100 美空網資料爬取

爬蟲小計（charles抓取wss資料--yy資料爬取）

（python）如何利用python深入爬取自己想要的資料資訊

美團西安酒店資料爬取（Python）

相關推薦