1. 程式人生 > >美團西安酒店資料爬取(Python)

美團西安酒店資料爬取(Python)

一、找到存放資料的檔案,分析其url

首先開啟美團酒店部分頁面,審查元素network裡面的xhr部分,會發現一個HotelSearch******的檔案如下圖選中點開的部分:


發現所在頁面的酒店存在此檔案裡,然後找出此檔案的Headers,如下圖:


Request URL很長,分析其組成發現:


前半部分是固定的,一直到uuid部分,uuid為Query String Parameters部分引數,重新整理幾次發現,uuid前半部分不變,@之後的部分會有變化,猜測此為時間戳,實踐證明確實如此,我需要爬取西安的資料,因此cityid是固定的,觀察發現offset為每頁第一個商家的編號,每頁20個商家,因此limit=20,startDay,endDay的含義顯而易見,按照預設順序因此sort=defaults,切換限制條件發現Query String Parameters部分X-FOR-WITH部分引數不變,由此構成url最後一部分,其中部分‘+’,‘=’符號需要修改,具體修改規則我目前還不瞭解,但是這部分不變,我就可以直接貼上url過來用。

二、獲取各個商圈id

不選擇任何限制條件的情況下,美團酒店部分只顯示51頁資料,因此需要分割槽域獲取,可以選擇行政區/商圈、地鐵站、高校、車站/機場、旅遊景點、醫院等,為了不漏掉部分酒店,選擇拿到這些分類的所有id,以下是這部分程式

import requests  
from lxml import html   
import random
import json
import csv
from bs4 import BeautifulSoup
with open(r'C:\Users\Hanju\Desktop\美團西安酒店.csv',"w", newline='',encoding='UTF-8') as csvfile: 
    writer = csv.writer(csvfile)
    writer.writerow(['網站名','品類','商家名稱','地址'])      
    url='http://hotel.meituan.com/xian/'
    User_Agent_List = [
        'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; LCTE; rv:11.0) like Gecko',
        'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; LCTE; rv:11.0) like Gecko',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
        'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
        'Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
        'Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
        'Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
        'MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
        'Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)',
        'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    ] 
    headers={'User-Agent':random.choice(User_Agent_List)}
    page = requests.get(url=url,headers=headers)
    html=page.text
    text=html.encode('ISO-8859-1').decode('utf-8')
    bf=BeautifulSoup(text,'lxml')
    tag=bf.find_all('script')
    content=str(tag[1])[252:-15]
    result=json.loads(content)
    location=result['location']['columns']  
    #行政劃分/商圈
    arealist=[]
    for item in location[1]['items']:
        area=item['items']
        for subarea in area:
            arealist.append(subarea['id'])           
    #地鐵線
    linelist=[]
    for item in location[2]['items'][1:]:
        area=item['items']
        for subarea in area:
            linelist.append(subarea['id'])           
    #高校
    collegelist=[]
    for item in location[3]['items']:
        group=item['items']
        for college in group:
            collegelist.append(college['id'])    
    #車站/機場
    airportRailwaylist=[]
    for item in location[4]['items']:
        airportRailwaylist.append((item['id']))    
    #旅遊景點
    scenicSpotlist=[]
    for item in location[5]['items']:
        group=item['items']
        for spot in group:
            scenicSpotlist.append((spot['id']))    
    #醫院
    hospitallist=[]
    for item in location[6]['items']:
        group=item['items']
        for hospital in group:
            hospitallist.append(hospital['id'])
print(arealist)
print(linelist)
print(collegelist)
print(airportRailwaylist)
print(scenicSpotlist)
print(hospitallist)

執行結果將各個列表打印出來,如下

[113, 6835, 7137, 900, 8976, 897, 898, 899, 908, 7402, 7404, 8974, 8975, 9012, 15634, 15639, 15642, 15643, 15664, 15667, 15784, 15785, 116, 907, 910, 1099, 4763, 6836, 7403, 8977, 8978, 8979, 8984, 15630, 15632, 15635, 15640, 15641, 119, 8980, 8983, 8991, 15629, 15631, 15633, 15636, 15637, 15638, 15646, 15647, 115, 8981, 903, 7479, 7405, 904, 905, 906, 6839, 7408, 7480, 8982, 14024, 14025, 117, 909, 7407, 7478, 7477, 7406, 8950, 7140, 8951, 8952, 7141, 7138, 9309, 9477, 13026, 25592, 37367, 114, 7476, 7142, 901, 6838, 902, 7143, 8985, 14026, 18674, 36710, 37380, 4251, 7398, 7399, 7400, 7401, 14199, 16010, 16013, 25659, 4253, 8986, 8987, 8989, 8990, 17228, 235, 7145, 7146, 7147, 7148, 15644, 15645, 15665, 15666, 15668, 4257, 16938, 25170, 25171, 7149, 25713, 25715, 25717, 25719, 25721, 4254, 23761, 23762, 23763, 4255, 22410, 22416, 118, 4256, 22405, 22408, 26289, 26295, 33947]
[87, 1742, 1747, 1748, 1740, 1756, 1749, 1743, 1751, 1752, 1754, 1758, 1755, 1741, 1750, 1746, 1745, 1757, 1744, 1753, 51, 1737, 1736, 1739, 1738, 1183, 1182, 1181, 1180, 1179, 1178, 1177, 1176, 1175, 1174, 1173, 1172, 1171, 1170, 1169, 1168, 1167, 156, 4261, 4238, 4241, 4259, 4255, 4253, 4249, 4251, 4257, 4245, 4250, 4258, 4240, 4244, 4243, 4247, 4242, 4236, 4248, 4239, 4260, 4254, 4256, 4237, 4246, 4252]
[4964, 4946, 5911, 5912, 5913, 5914, 5915, 4937, 4938, 4940, 4941, 4942, 4944, 4945, 4948, 4949, 4954, 4955, 4958, 4971, 4980]
[101, 102, 103]
[9778, 843, 845, 847, 848, 851, 860, 863, 864, 871, 872, 27508, 9775, 31363, 20730, 20732, 844, 858, 29062, 29119, 9773, 9776, 27506, 9772, 9774, 9777, 20731, 10494, 10496, 841, 850, 854, 27487, 866, 27492, 869, 29061, 10355, 10356, 853, 857, 27483, 861, 865, 867, 868]
[20718, 20723, 20728, 25535, 25548, 25551, 25553, 24149, 24150, 20706, 27449, 25533, 25537, 25539, 25540, 25541, 25544, 25546, 25549, 25552]

下面按照url組成規則,按照列表遍歷,程式碼如下:

import requests  
from lxml import html   
import random
import json
import time
import csv
with open(r'C:\Users\Hanju\Desktop\美團西安酒店.csv',"w", newline='',encoding='UTF-8') as csvfile: 
    writer = csv.writer(csvfile)
    writer.writerow(['網站名','品類','商家名稱','地址']) 
    AreaList=[113, 6835, 7137, 900, 8976, 897, 898, 899, 908, 7402, 7404, 8974, 8975, 9012, 15634, 15639, 15642, 15643, 15664, 15667, 15784, 15785, 116, 907, 910, 1099, 4763, 6836, 7403, 8977, 8978, 8979, 8984, 15630, 15632, 15635, 15640, 15641, 119, 8980, 8983, 8991, 15629, 15631, 15633, 15636, 15637, 15638, 15646, 15647, 115, 8981, 903, 7479, 7405, 904, 905, 906, 6839, 7408, 7480, 8982, 14024, 14025, 117, 909, 7407, 7478, 7477, 7406, 8950, 7140, 8951, 8952, 7141, 7138, 9309, 9477, 13026, 25592, 37367, 114, 7476, 7142, 901, 6838, 902, 7143, 8985, 14026, 18674, 36710, 37380, 4251, 7398, 7399, 7400, 7401, 14199, 16010, 16013, 25659, 4253, 8986, 8987, 8989, 8990, 17228, 235, 7145, 7146, 7147, 7148, 15644, 15645, 15665, 15666, 15668, 4257, 16938, 25170, 25171, 7149, 25713, 25715, 25717, 25719, 25721, 4254, 23761, 23762, 23763, 4255, 22410, 22416, 118, 4256, 22405, 22408, 26289, 26295, 33947]
    linelist=[87, 1742, 1747, 1748, 1740, 1756, 1749, 1743, 1751, 1752, 1754, 1758, 1755, 1741, 1750, 1746, 1745, 1757, 1744, 1753, 51, 1737, 1736, 1739, 1738, 1183, 1182, 1181, 1180, 1179, 1178, 1177, 1176, 1175, 1174, 1173, 1172, 1171, 1170, 1169, 1168, 1167, 156, 4261, 4238, 4241, 4259, 4255, 4253, 4249, 4251, 4257, 4245, 4250, 4258, 4240, 4244, 4243, 4247, 4242, 4236, 4248, 4239, 4260, 4254, 4256, 4237, 4246, 4252]
    collegelist=[4964, 4946, 5911, 5912, 5913, 5914, 5915, 4937, 4938, 4940, 4941, 4942, 4944, 4945, 4948, 4949, 4954, 4955, 4958, 4971, 4980]
    airportRailwaylist=[101, 102, 103]
    scenicSpotlist=[9778, 843, 845, 847, 848, 851, 860, 863, 864, 871, 872, 27508, 9775, 31363, 20730, 20732, 844, 858, 29062, 29119, 9773, 9776, 27506, 9772, 9774, 9777, 20731, 10494, 10496, 841, 850, 854, 27487, 866, 27492, 869, 29061, 10355, 10356, 853, 857, 27483, 861, 865, 867, 868]
    hospitallist=[20718, 20723, 20728, 25535, 25548, 25551, 25553, 24149, 24150, 20706, 27449, 25533, 25537, 25539, 25540, 25541, 25544, 25546, 25549, 25552]
    Classlist=['areaId','stationId','college','airportRailway','scenicSpot','hospital']  (按照不同分類爬取url包含部分欄位不同,所以增加此列表)  
    List=[]
    List.append(AreaList)
    List.append(linelist)
    List.append(collegelist)
    List.append(airportRailwaylist)
    List.append(scenicSpotlist)
    List.append(hospitallist) 
    for i in range(6):
        class_=Classlist[i]
        for area in List[i]:
            for j in range(1,51):
                t = time.time()          
                url='https://ihotel.meituan.com/hbsearch/HotelSearch?utm_medium=pc&version_name=999.9&cateId=20&attr_28=129&uuid=65E4A4E1481DEB3C239CDBA5375883CCF0C2146B51BFFFE54C22EF25CBD163E7%40'+str(int(round(t*1000)))+'&cityId=42&offset='+str(i*20)+'&limit=20&startDay=20180622&endDay=20180622&q=&sort=defaults&'+class_+'='+str(area)+'&X-FOR-WITH=WP7OFM8BmAyEL3fwC1hndfJ8RQ9wvfF06ulowvEq%2FE618PEzTt99YDqwbv58Iv257lSroAb6wLUFiYrkczFTgE2Cfv2X93DXMuCAWKEPpr7fzIbbtrBGLHadYR4vFYiWlrvb3Lr%2FPi%2BoS3Gs92mFZA%3D%3D'
                User_Agent_List = [
            'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; LCTE; rv:11.0) like Gecko',
            'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; LCTE; rv:11.0) like Gecko',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
            'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
            'Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
            'Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
            'Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
            'MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
            'Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)',
            'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
                ] 
                headers={'User-Agent':random.choice(User_Agent_List)}
                page = requests.get(url=url, headers=headers)  
                html=page.text  
                result=json.loads(html)
                result1=result['data']
                result11=result1['searchresult']
                if result11:
                    print(class_+':'+str(area))
                    for item in result11:
                        Info_List=[]
                        Info_List.append('美團')
                        Info_List.append('酒店')
                        Info_List.append(item['name'])
                        Info_List.append(item['addr'])
                        writer.writerow(Info_List)
                    time.sleep(random.choice(range(1,4)))(隨機休眠)
                else:
                    break
print("Done")

下面是部分執行結果:

areaId:113
areaId:113
areaId:113
areaId:113

以下是寫入檔案的部分資料:

網站名,品類,商家名稱,地址
美團,酒店,錦江之星(西安東門店),碑林區柿園路163號(帝標大廈旁,近興慶宮公園、陝西省電力公司對面)
美團,酒店,如家酒店(西安南門地鐵站碑林博物館店),碑林區文藝北路甲字1號(文昌門外十字東南角)
美團,酒店,富海明都酒店(明城牆南門店),碑林區環城南路與文藝北路十字西南角(文昌門外,地鐵2號線永寧門站D2出口東行500米)
美團,酒店,鐘樓天成酒店(地鐵站回民街中心店),蓮湖區鐘樓北大街西華門十字西南角巨集府嘉會公寓C座7F(回民小吃街東100米,地鐵二號線鐘樓站A口50米)
美團,酒店,派酒店(西安碑林博物館和平門店),碑林區環城南路東段100號(和平門向東300米路南)
美團,酒店,銅川辦事處招待所(西京醫院康復路地鐵口店),新城區興慶路11號(西京醫院對面路東50米)
美團,酒店,布丁酒店(西安鐘樓中心店),碑林區東大街354號(端履門十字)
美團,酒店,卡森酒店(鐘鼓樓永興坊店),碑林區建國路88號新興大廈 (吳銘火鍋隔壁)
美團,酒店,星愉時尚連鎖酒店(西安李家村萬達廣場店),碑林區明勝街9號(李家村萬達廣場西門向西100米紫玉蘭亭旁)
美團,酒店,布丁酒店(西安大雁塔建築科技大學店),碑林區太乙路23號(太乙路十字向南200米路東,中鐵中學對面)
美團,酒店,巨集源酒店(鐘樓東大街店),新城區西一路與尚德路交匯處西20米(西一路116號)
美團,酒店,布丁酒店(西安鐘鼓樓東大街萬達廣場店),碑林區東大街132號(大差市十字向東100米路南玄風橋北巷內)
美團,酒店,國展商務酒店,碑林區長安北路14號省體育場內東南(近省體育局)
美團,酒店,7天連鎖酒店(西安小雁塔南稍門機場大巴店),碑林區友誼西路46號南稍門十字向西200米(南稍門地鐵站A口向西200米,天源浴場正對面)
美團,酒店,小米時尚酒店(李家村萬達店),碑林區雁塔北路1號(李家村十字東北角)
美團,酒店,萬諦美途酒店,碑林區文藝南路39號
美團,酒店,檸檬•漫莎酒店(西安鐘樓店),碑林區東大街與端履門交匯處西南角(鐘樓、回民街東800米)
美團,酒店,西安十間酒店(小雁塔店),碑林區朱雀大街北段72號合能朱闕2號樓1單元1710室
美團,酒店,斯特威新概念酒店,碑林區東大街與端履門交匯處向南100米雲龍大廈
美團,酒店,申鵬商務酒店(西安鐘樓東大街店),碑林區東大街132號(大差市十字南100米,距永興坊1000米)
美團,酒店,錦江之星(西安東門店),碑林區柿園路163號(帝標大廈旁,近興慶宮公園、陝西省電力公司對面)
美團,酒店,如家酒店(西安南門地鐵站碑林博物館店),碑林區文藝北路甲字1號(文昌門外十字東南角)
美團,酒店,富海明都酒店(明城牆南門店),碑林區環城南路與文藝北路十字西南角(文昌門外,地鐵2號線永寧門站D2出口東行500米)
美團,酒店,鐘樓天成酒店(地鐵站回民街中心店),蓮湖區鐘樓北大街西華門十字西南角巨集府嘉會公寓C座7F(回民小吃街東100米,地鐵二號線鐘樓站A口50米)
美團,酒店,派酒店(西安碑林博物館和平門店),碑林區環城南路東段100號(和平門向東300米路南)
美團,酒店,銅川辦事處招待所(西京醫院康復路地鐵口店),新城區興慶路11號(西京醫院對面路東50米)
美團,酒店,布丁酒店(西安鐘樓中心店),碑林區東大街354號(端履門十字)
美團,酒店,卡森酒店(鐘鼓樓永興坊店),碑林區建國路88號新興大廈 (吳銘火鍋隔壁)
美團,酒店,星愉時尚連鎖酒店(西安李家村萬達廣場店),碑林區明勝街9號(李家村萬達廣場西門向西100米紫玉蘭亭旁)
美團,酒店,布丁酒店(西安大雁塔建築科技大學店),碑林區太乙路23號(太乙路十字向南200米路東,中鐵中學對面)
美團,酒店,巨集源酒店(鐘樓東大街店),新城區西一路與尚德路交匯處西20米(西一路116號)
美團,酒店,布丁酒店(西安鐘鼓樓東大街萬達廣場店),碑林區東大街132號(大差市十字向東100米路南玄風橋北巷內)
美團,酒店,國展商務酒店,碑林區長安北路14號省體育場內東南(近省體育局)
美團,酒店,7天連鎖酒店(西安小雁塔南稍門機場大巴店),碑林區友誼西路46號南稍門十字向西200米(南稍門地鐵站A口向西200米,天源浴場正對面)
美團,酒店,小米時尚酒店(李家村萬達店),碑林區雁塔北路1號(李家村十字東北角)
美團,酒店,萬諦美途酒店,碑林區文藝南路39號
美團,酒店,檸檬•漫莎酒店(西安鐘樓店),碑林區東大街與端履門交匯處西南角(鐘樓、回民街東800米)
美團,酒店,西安十間酒店(小雁塔店),碑林區朱雀大街北段72號合能朱闕2號樓1單元1710室
美團,酒店,斯特威新概念酒店,碑林區東大街與端履門交匯處向南100米雲龍大廈
結束……

相關推薦

西安酒店資料Python

一、找到存放資料的檔案,分析其url首先開啟美團酒店部分頁面,審查元素network裡面的xhr部分,會發現一個HotelSearch******的檔案如下圖選中點開的部分:發現所在頁面的酒店存在此檔案裡,然後找出此檔案的Headers,如下圖:Request URL很長,分

python爬蟲西安美食資料

經歷了一週的種種波折,參考了CSDN上N多博主的部落格,終於搞定了美團西安美食資料,在此做簡單記錄:愚蠢如我,不知如何讓爬蟲程式翻下一頁,只好看了前後兩頁請求的網址有什麼不同,後來發現第一頁字尾是‘pn1’,第二頁是‘pn2’,以此類推……所以手動查看了一共有15頁之後,萌生

python:爬蟲之Post請求以及動態Ajax資料3

#爬蟲的post方式 作用:對引數進行打包反饋給伺服器 import urllib.request import urllib.parse #對引數打包 url = "http://www.sunck.wang:8085/form" data = { "use

2019校招程式設計-圖的遍歷JAVA

第一行為節點數n,其他為n-1條邊,判斷1號結點出發的最短路徑 輸入: 4 1 2 1 3 3 4 輸出: 4 解題思路:有的邊走兩遍,有的邊只走一遍(最大深度的邊只走一遍),所以最短路程 = 2*(n-1)-最大深度。 參考: public cl

python筆記】騰訊動漫更新

目前騰訊動漫閱讀介面的滑動需要切換到指定視窗,即漫畫照片頁所在div 'var q=document.getElementById("mainView").scrollTop ='+str(i*3000) 才可以滑動 import requests import u

仿下拉重新整理控制元件

如果想學習更多進階知識,可以關注我的微信公眾號:Android小菜。也可以直接掃描二維碼關注:轉載本專欄文章,請註明出處,尊重原創 。文章部落格地址:道龍的部落格本篇是實現仿美團下拉重新整理控制元件的第二篇,第一篇見:仿美團下拉重新整理控制元件(一)文字最終實現效果如下:由於

利用Python進行百度文庫內容

新手上路 在很多時候我們需要下載百度文庫內容的時候,彈出來的是下載券不足,而現在複製其中的內容也只能複製一部分,如果遇到一些政治開卷考,考前抱佛腳,想要複製出文庫中的內容,可謂是難上加難。 對百度文庫內容的獲取,從最開始的大部分文件可以免費直接從中直接下載,

QQ音樂python實現

簡述 在網頁版上聽音樂,然後,捕捉到了網路上的包。 分析了一下,做了這個東西。 下面的爬蟲,會爬取到 汪峰的《當我想你的時候》這首歌 爬蟲練練手哈哈 命名的格式為mp4,我這個是看對應相應包得

Python爬蟲周記之案例篇——基金凈值

ges 獲取 字符串 附加 json ram headers 列表 現在 在簡單完成了基金凈值爬取以後,我們對中間的過程可能產生了很多疑惑,即使完成了目標,也僅僅是知其然而不知其所以然,而為了以後爬蟲任務的順利進行,對爬蟲過程中所涉及的原理進行掌握是十分有必要的。 本文將會

一次驚險的跳槽面試經歷阿里//頭條/網易/有贊...)yet

為啥跳槽每次說因為生活成本的時候面試官都會很驚奇,難道有我們這裡貴?好想直接給出下面這張圖,廈門的房價真的好貴好貴好貴。。。image.png面試過程(先打個廣告,有興趣加入阿里的歡迎發簡歷至 [email protected],或簡書上給我發信息)面的是Java崗,總共面了7家公司,通過了6家。按自

將列表資料寫入檔案python檔案:txt,csv,excel

本篇為轉載,作為記錄學習用的,原作者如下:   作者:記不清下一秒  來源:CSDN  原文:https://blog.csdn.net/u010513327/article/details/80889846    以下是原文內容:

Titanic資料分析報告python

# Titanic資料分析報告 ## 1.1 資料載入與描述性統計 載入所需資料與所需的python庫。 import statsmodels.api as sm import statsmodels.formula.api as

新浪微博資料探勘python本週人們在討論的熱門話題的提取

分析熱門話題微博: (1)人們在討論(查詢)什麼話題(熱門話題) (2)該話題下的微博獲取 (3)那些人轉發了微博(涉及的人物) (4)轉發的時間和地點(話題的在時間和空間上的影響度) (5)網民對此持有什麼態度(情感分析) 開始之前,python的字典和列表的操作知識必須

網美食資料,看北京上海都愛吃些啥

資料爬取三步曲之前方有坑 工作需求需要採集 OTA 網站的美食資料,某個城市的飯店型別情況等。對於老饕來說這不算個事,然而最後的結果是午飯晚飯都沒有時間去吃了……情況如下: Chrome F12 直接定位 get 請求,response 的結

Java資料——攜程酒店資料

1.首先思考怎樣根據地域獲取地域酒店資訊,那麼我們看一下攜程上是怎樣獲得的。 還是開啟http://hotels.ctrip.com/domestic-city-hotel.html 這個地址,隨便點選一個地區進去(這裡我選取澳門作為示例),點選第二頁資料

網的美食點評資訊含頁面分析過程

寫在前面:        憑藉興趣寫了很多爬蟲的小程式,但是都沒有以博文的形式分享出來。爬取美團網的資料是因為課題研究需要,已經將深圳所有的美團店鋪評論資料爬取完畢(大眾點評和百檽米的相應區域也已爬取完畢,對爬蟲有興趣可以看我的GitHub主頁:https://github

Python網路資料----網路爬蟲基礎

The website is the API......(未來的資料都是通過網路來提供的,website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用,此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面;自動的

Python爬蟲入門教程 3-100 空網資料

簡介 從今天開始,我們嘗試用2篇部落格的內容量,搞定一個網站叫做“美空網”網址為:http://www.moko.cc/, 這個網站我分析了一下,我們要爬取的圖片在 下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下,我需要找到一個圖片列表

爬蟲小計charles抓wss資料--yy資料

背景 爬取一個直播平臺的資訊與一個普通網站的資料 直播平臺的資訊有熱門主播的線上人數,時常,與熱門直播的禮物情況(粉絲的人物畫像) 難點 打賞禮物的人物畫像 https wss(資料的實時性),需

python如何利用python深入自己想要的資料資訊

一、問題說明 由於老師佈置了一個任務,需要對一個網站的城市做一些統計,並提取出這個網站上的城市的經緯度資訊然後繪製在百度地圖上。如果是一些數量不多的城市那也到好辦,但是如果對於這種存在幾百上千的城市,而且這些城市的經緯度資訊在第三級網站上才能找到,這樣一來,如果人工去完成會非常枯燥而