requests爬取去哪兒網站

阿新 • • 發佈：2019-02-04

閒來無事，所以爬下去哪兒網站的旅遊景點資訊，爬取網頁之前，最重要的是分析網頁的架構。

1. 選擇要爬取的網頁及定位自己要爬取的資訊

url=http://piao.qunar.com/ 爬取全國熱門城市的境內門票

首先要得到全國熱門城市的城市名及它們背後的連結

2. 根據獲得的連結進入對應的頁面

進一步分析頁面，將我們要的資料一個個找出來

3. 得到頁面的下一頁

這裡我為什麼要把後面這張圖片拿出來是因為我要根據最大頁數來遍歷每一頁，倒數第二個a標籤中的資料是頁數資訊

到這裡我們就將我們的思路屢清楚了：

1.首先根據初始給的url,解析該url得到城市的城市名及背後的連結

2.再根據得到的連結解析出其中包含很多頁的每一頁連結

3.根據得到的每一個的連結，再來對每一頁的資訊解析

4.將解析後的資料存入到MySQL資料庫中

4. 設計資料庫

5. 直接上程式碼

import requests
from bs4 import BeautifulSoup
import re
import pymysql

# 解析出每個城市及其該城市對應的url
def parse_city(url):
    html = requests.get(url,headers=headers)
    html = html.text
    soup = BeautifulSoup(html,'lxml')
    city = soup.find_all('ul',{'class':'mp-sidebar-list','mp-role':'hotCityList'})[0].find_all('li')
    for i in city:
        # 得到每個城市的名字和對應的url
        city_name = i.a.text
        city_url = i.a['href']
        city_url='http://piao.qunar.com'+city_url
        city_page(city_name,city_url)

# 解析出每個城市的url的下一頁
def city_page(city_name,city_url):
    html = requests.get(city_url,headers=headers)
    html = html.text
    soup = BeautifulSoup(html,'lxml')
    page = soup.find_all('div',{'class':'pager'})[0].find_all('a')
    # 得到a標籤中的href
    page_url = page[0]['href']
    # 得到下一頁的url，這個url由我們來指定，只需把頁數前面的字串匹配出來即可
    page_select_url = re.findall('(.*page=)',page_url)[0]
    # 將完整的頁數的url拼接起來
    page_select_url = 'http://piao.qunar.com'+page_select_url
    # 這裡選-2是有深意的，因為在選擇每一頁的地方倒一是下一頁，而倒二則是尾頁數
    page_num = int(page[-2].text)
    print('有%s頁的資料'%page_num)
    for i in range(1,page_num+1):
        # 遍歷得到某個城市中所有頁數
        print('第%d頁資訊'%i)
        parse_page_url = page_select_url+str(i)
        print('網頁地址：',parse_page_url)
        # 將每一頁的url都傳遞到parse_page中進行解析
        parse_page(city_name,parse_page_url)

# 解析每個城市每一頁的資訊
def parse_page(city_name,parse_page_url):
    html = requests.get(parse_page_url,headers=headers)
    html = html.text
    soup = BeautifulSoup(html,'lxml')
    jingdian = soup.find_all('div',{'class':'result_list','id':'search-list'})[0].find_all('div',{'class':'sight_item'})
    for c in jingdian:
        # 景點名
        jd_name = c.find_all('a',{'data-click-type':'l_title','class':'name'})[0].text
        # 景點級別，有的景區無級別，所以要設定一個異常
        try:
            jd_jb = c.find_all('span',{'class':'level'})[0].text
        except:
            jd_jb='普通景區'
        # text得到的是  地址：北京市東城區景山前街4號  這種格式，所以以空格拆分，取後面那個
        jd_address = c.find_all('p',{'class':{'address','color999'}})[0].text.split()[-1]
        # 景點介紹
        jd_jieshao = c.find_all('div',{'class':{'intro','color999'}})[0].text
        # 景點價格，有的是免費，並無價格這一引數，所以設定一個異常
        try:
            jd_price = c.find_all('span',{'class':'sight_item_price'})[0].find_all('em')[0].text
        except:
            jd_price=0
        # 有的是免費，並銷量這一引數，所以設定一個異常
        try:
            jd_xiaoliang = c.find_all('span',{'class':'hot_num'})[0].text
            # 景點銷量
            jd_xiaoliang=int(jd_xiaoliang)
        except:
            jd_xiaoliang=0
        print('{0}  {1}  {2}  {3}  {4}'.format(jd_name,jd_jb,jd_jieshao,jd_price,jd_xiaoliang))
        mysql(city_name,jd_name,jd_jb,jd_jieshao,jd_price,jd_xiaoliang)

# 定義一個類，將連線MySQL的操作寫入其中
class down_mysql:
    def __init__(self,city_name,jd_name,jd_jb,jd_jieshao,jd_price,jd_xiaoliang):
        self.city_name = city_name
        self.jd_name = jd_name
        self.jd_jb = jd_jb
        self.jd_jieshao = jd_jieshao
        self.jd_price = jd_price
        self.jd_xiaoliang = jd_xiaoliang
        self.connect = pymysql.connect(
            host = 'localhost',
            db = 'test',
            port = 3306,
            user = 'root',
            passwd = '123456',
            charset = 'utf8',
            use_unicode = False
        )
        self.cursor = self.connect.cursor()
    # 儲存資料到MySQL中
    def save_mysql(self):
        sql = "insert into qu_na(city_name,jd_name,jd_jb,jd_jieshao,jd_price,jd_xiaoliang) VALUES (%s,%s,%s,%s,%s,%s)"
        try:
            self.cursor.execute(sql,(self.city_name,self.jd_name,self.jd_jb,self.jd_jieshao,self.jd_price,self.jd_xiaoliang))
            self.connect.commit()
            print('資料插入成功')
        except:
            print('資料插入錯誤')
def mysql(city_name,jd_name,jd_jb,jd_jieshao,jd_price,jd_xiaoliang):
    # 新建類，將資料儲存在MySQL中
    down = down_mysql(city_name,jd_name,jd_jb,jd_jieshao,jd_price,jd_xiaoliang)
    down.save_mysql()

if __name__=='__main__':
    headers = {
        'User-Agent': 'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)', }
    start_url='http://piao.qunar.com/'
    parse_city(start_url)

執行程式

然後再來看我們的MySQL資料庫

看到景點名這個欄位空了這麼多我就知道我表設計錯了，這個欄位給大了，總而言之還算是爬下來了

requests爬取去哪兒網站

閒來無事，所以爬下去哪兒網站的旅遊景點資訊，爬取網頁之前，最重要的是分析網頁的架構。1. 選擇要爬取的網頁及定位自己要爬取的資訊 url=http://piao.qunar.com/ 爬取全國熱門城市的境內門票首先要得到全國熱門城市的城市名及它們背後的連結2. 根據獲得

25.爬取去哪兒網的商品資料-1

1.首先分析頁面資訊頁面地址：http://touch.qunar.com/爬取度假中的自由行頻道資訊可以看到某一城市xhr獲取資訊： request.url : https://touch.dujia.qunar.com/list?modu

25.爬取去哪兒網的商品數據-2

爬取商品數據註意 alt coo url 獲取配置信息需要註意的問題：1.首先要獲取dep和query參數。2.分析請求的url地址變化，獲取routeCount參數。我配置代碼出現的問題：1.url拼接問題，網站拒絕訪問，模擬請求參數設置user-agen

25.爬取去哪兒網的商品資料-2

需要注意的問題：1.首先要獲取dep和query引數。2.分析請求的url地址變化，獲取routeCount引數。我配置程式碼出現的問題：1.url拼接問題，網站拒絕訪問，模擬請求引數設定user-agent和cookie2.獲取routeCount引數會報異常，因為有的url返回的資料

爬取去哪兒網北京南站驢友點評，及詞雲

爬取頁面截圖詞雲效果 title comment 程式碼資料抓取 # -*- encoding:utf-8 *-* import urllib.request from lxml import etre

爬取去哪兒網 6000 多個景點資料告訴你，國慶哪裡不是人山人海！

國慶長假已經過去一半啦，朋友們有多少是堵在了景區和路上？為了方便大家的出遊選擇，筆者爬取了去哪兒

用python爬蟲爬取去哪兒4500個熱門景點，看看國慶不能去哪兒

前言：本文建議有一定Python基礎和前端(html,js)基礎的盆友閱讀。金秋九月，丹桂飄香，在這秋高氣爽，陽光燦爛的收穫季節裡，我們送走了一個個暑假餘額耗盡哭著走向校園的孩籽們，又即將迎來一年一度偉大祖國母親的生日趴體(無心上班，迫不及待想為祖國母親

使用 Scrapy 爬取去哪兒網景區資訊

Scrapy 是一個使用 Python 語言開發，為了爬取網站資料，提取結構性資料而編寫的應用框架，它用途廣泛，比如：資料探勘、監測和自動化測試。安裝使用終端命令 pip install Scrapy 即可。 Scrapy 比較吸引人的地方是：我們可以根據需求對其進行修改，它提供了多種型別的爬蟲基類，如：Ba

Python3.5+requests 爬取網站遇到中文亂碼怎麼辦？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

import requests from bs4 import BeautifulSoup url = 'http://quote.eastmoney.com/stocklist.html' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Wind

requests-beautifulsoup爬取大學排名網站

1.根據url爬取頁面內容 def getHTMLText(url): try: r = requests.get(url,timeout=30)#設定超時時長為30s r.raise_for_status() r.encoding = r.apparent_

requests爬取中文網站的字元編碼問題

這兩天在一些入口網站使用requests爬資料的時候，發現列印或者儲存到檔案中的中文顯示為Unicode碼，看著十分不爽快，於是就必須網上找了一下相關問題。其實，弄明白瞭解決也很簡單了比如，爬取鳳凰網 response= requests

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

scrapy爬取西刺網站ip

close mon ins css pro bject esp res first # scrapy爬取西刺網站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem clas

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

bgcolor img err 預覽政府 bold 技術貴的頁面元素實驗環境: win7 python3.5 bs4 0.0.1 requests 2.19 實驗日期：2018-08-07 爬取網站：http://www.xhsd.cn/ 現在的網站大多有復雜

思路——根據網站鏈接爬取整個圖片網站

requests 方式效率 java實現 rap html 進行 os模塊 pat 八月入職新公司，發現公司的爬蟲系統主要用Java實現的偶爾用一些python，為此又看了下Java爬蟲，順便用之前同事推薦我的美女圖片網站練手（之前推薦時候python爬蟲勉強算經

requests爬取中國天氣網深圳七日天氣

dumps pat txt all resp att .sh asc code 1 # conding=utf-8 2 import json 3 import re 4 import requests 5 6 def get_data(url): 7

批量爬取某圖片網站的圖片

批量爬取某圖片網站的圖片宣告：僅用於爬蟲學習，禁止用於商業用途謀取利益 1、網頁解析（1）開啟veer首頁，F12(谷歌瀏覽器)，輸入關鍵字，點選搜尋，點選檢視如圖畫圈位置（2）檢視search中的Headers，找到請求的URL和請求的paylo

python 爬取新浪網站 NBA球員最近2個賽季庫裡前20場資料

1. 分析新浪網站中球員資料的獲取方式(F12 開發者模式，除錯網頁)：一般網站儲存資料的方式分為2種：1. 靜態網頁儲存；2. 動態請求；對於靜態網頁儲存來說，就是開啟瀏覽器中檢視原始碼，就可以從原始碼中獲取所需要的資料；對於動態請求來說，採用F12的開發者模式中，才能從伺服器的

爬取藝龍網站酒店評論+

import urllib.request import requests import demjson import pymysql import re from bs4 import BeautifulSoup def remove_emoji(comment,restr=’’): #過

requests爬取去哪兒網站

相關推薦