Python爬取攜程旅遊行程資訊+GIS視覺化

阿新 • • 發佈：2018-12-17

一、需求：

爬取攜程旅行網的“北京推薦行程”首頁的各個行程文章，將各個行程所包含的景點資訊提取出來，並匯入ArcGIS進行GIS視覺化。

二、爬取思路：

爬取北京推薦行程主頁的各個文章的URL，然後通過該URL爬取出行程文章的資料，最後進行資訊提取，得到行程景點的相關資訊。

三、編寫程式碼：

import urllib.request
import re
import pandas as pd

#模擬瀏覽器
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6726.400 QQBrowser/10.2.2265.400")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
#行程主頁URL
baseUrl="http://you.ctrip.com/journeys/beijing1.html"
pagedata1=urllib.request.urlopen(baseUrl).read().decode("utf-8","ignore")
#行程文章的名稱與URL的提取規則
articleUrlPat='<!--整塊連結-->\r.*?<a href="(.*?)" '
articleNamePat='<dt class="ellipsis">(.*?)<'
#提取文章的名稱與URL
journeyUrl=re.compile(articleUrlPat,re.S).findall(pagedata1)
journeyName=re.compile(articleNamePat,re.S).findall(pagedata1)
x=[]
#分層爬取
for i in range(0,len(journeyUrl)):
    thisUrl="http://you.ctrip.com/"+journeyUrl[i]
    thisName=journeyName[i]
    pagedata2=urllib.request.urlopen(thisUrl).read().decode("utf-8","ignore")
    namePat='"name":"(.*?)"'
    latPat='"lng":"(.*?)"'
    lonPat='"lat":"(.*?)"'
    sightNames=re.compile(namePat,re.S).findall(pagedata2)
    sightLats=re.compile(latPat,re.S).findall(pagedata2)
    sightLons=re.compile(lonPat,re.S).findall(pagedata2)
    for j in range(0,len(sightNames)):
        sightname=sightNames[j]
        sightlat=sightLats[j]
        sightlon=sightLons[j]
        x.append([i,thisName,j,sightname,float(sightlat),float(sightlon)])
#將資料結構化儲存至規定目錄的CSV檔案中
c = pd.DataFrame(x)
c.to_csv('E:/journey.csv',encoding='utf-8-sig')

四、GIS視覺化：

1、將爬取的CSV處理後，匯入ArcMap中：

2、點集轉線，線欄位設定為field2（程式碼中的“i”變數），排序欄位設定為field4（程式碼中的“j”變數）：

3、根據不同行程進行唯一值渲染：

Python爬取攜程旅遊行程資訊+GIS視覺化

一、需求：爬取攜程旅行網的“北京推薦行程”首頁的各個行程文章，將各個行程所包含的景點資訊提取出來，並匯入ArcGIS進行GIS視覺化。二、爬取思路：爬取北京推薦行程主頁的各個文章的URL，然後通過該URL爬取出行程文章的資料

爬蟲 — 爬取攜程的航班資訊

功能介紹：輸入起點、終點、時間就能得到攜程上的航班資訊程式碼： from prettytable import PrettyTable import requests import json def xiecheng(dcity,acity,date):

python爬取攜程酒店資料

首先開啟攜程所有北京的酒店http://hotels.ctrip.com/hotel/beijing1 簡簡單單，原始碼中包含我們需要的酒店資料，你以為這樣就結束了？攜程的這些資料這麼廉價地就給我們得到了？事實並不是如此，當我們點選第二頁的時候出現問題：雖然酒店的資料改變了，但是我們發現

爬取攜程頁面酒店資訊並且匯入到HDFS

package com.itstar.util; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io

利用selenium爬取攜程酒店資訊

上節部落格我們利用requests請求庫，正則表示式來提取資訊（連結https://mp.csdn.net/postedit/81865681），提到過使用selenium也可以抓取酒店資訊，在這裡利用selenium模組優點是不需要資料處理過濾，只需要處理異常，（實際上也是一樣的效果）但是對於

python中scrapy框架爬取攜程景點資料

--------------------------------------------------------------------------------------------- [版權申明：本文系作者原創，轉載請註明出處] 文章出處：https://blog.cs

爬取攜程和螞蜂窩的景點評論資料\攜程評論資料爬取\旅遊網站資料爬取

本人長期出售超大量微博資料、旅遊網站評論資料，並提供各種指定資料爬取服務，Message to [email protected]。同時歡迎加入社交媒體資料交流群：99918768 前言為了獲取多源資料需要到各個網站獲取一些景點的評論資訊

Python爬蟲抓取攜程網機票資訊併發郵件通知

背景：由於要買機票，所以一直進行搜尋，爬蟲可以幫我解決這個問題；解釋的超級詳細。於是通過這一過程，基本瞭解了一些；查詢上海到西安 4.29～05.02的機票： #coding:utf-8 import urllib2 from

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python爬取網易雲歌曲資訊及下載連結並簡單展示

我們選取的爬取目標是歌單這一塊兒 chrome瀏覽器 f12抓包經過簡單的解析，拿到歌曲分類名字 create_table_sql = 'create table ’ + i + ‘(id int auto_increment primary key,song_name varch

用Python爬取中國新說唱歌曲資訊

登入https://music.163.com/ 網易雲音樂搜尋新說唱，開啟Chrome的開發工具工具選擇Network並重新載入頁面，找到與評論資料相關的請求即name為web?csrf_token=的POST請求，如下圖所示檢視該請求的headers我們發現f

Scrapy爬取攜程桂林問答

guilin.sql： CREATE TABLE `guilin_ask` ( `id` INT(11) NOT NULL AUTO_INCREMENT COMMENT '主鍵', `question` VARCHAR(255) DEFAULT NULL COM

python爬取百度旅遊的城市點評文字資料

以青島市為例，檢視網址主要欄位為 pn=0 n?rn=15&pn=0&style=hot#remark-contaier 最後一頁，即183頁 pn=2730 n?rn=15&pn=2730&style=hot#remark-contai

Python爬取拉勾網招聘資訊存入資料庫

先抓包分析我們想要獲取的資料，很明顯都是動態資料，所以直接到Network下的XHR裡去找，這裡我們找到具體資料後，就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後，我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

Python爬取拉勾網招聘資訊

此程式碼執行建議Python3，省卻中文編碼的麻煩遇到的幾個問題：（1）拉鉤網的資料是通過js的ajax動態生成，所以不能直接爬取，而是通過post’http://www.lagou.com/jobs/positionAjax.json?needAddt

Python爬取拉勾網招聘資訊並可視化分析

需求: 1:獲取指定崗位的招聘資訊 2:對公司地區,公司待遇,學歷情況,工作經驗進行簡單分析並可視化展示視覺化分析: 公司地區:柱狀圖,地圖公司待遇:雲圖公司-學歷情況:餅圖公司工作經

python爬取拉鉤網招聘資訊

拉鉤網網址為：https://www.lagou.com/點選F12進入控制檯觀察結構，發現所有的招聘內容都在此json檔案中：注意headers中的請求url以及請求方法：還有表單資料：獲取以上資訊後，基本就可以開始爬取工作，注意，拉鉤網有反爬機制，所以需要使用cookie

Python爬取58同城招聘資訊

微信搜尋關注“程式設計師旅途”公眾號，檢視更多環境要求： (1)python3環境 (2)requests模組：是一個很實用的Python HTTP客戶端庫，安裝指令pip install requests (3)BeautifulSoup模組：提供一些簡單的、pyth

Python爬取攜程旅遊行程資訊+GIS視覺化

相關推薦