Python scrapy框架爬取瓜子二手車資訊資料

阿新 • • 發佈：2019-05-09

專案實施依賴：

python，scrapy ，fiddler

scrapy安裝依賴的包：

可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載 pywin32，lxml，Twisted，scrapy然後pip安裝

專案實施開始：

1、建立scrapy專案：cmd中cd到需建立的檔案目錄下

scrapy  startproject guazi

View Code

2、建立爬蟲：cd到建立好的專案下

1 scrapy genspider gz guazi.com

View Code

3、分析目標網址：

　　第一次我直接用的谷歌瀏覽器的抓包分析，取得UA和Cookies請求，返回的html資料完全缺失，分析可能是攜帶的Cookies

有問題，然後就用fiddler抓包才，得到Cookies與谷歌上得到Cookies多了UA，時間等引數，

4、將UA，Cookies新增到下載中間中去：

1 class Guzi1DownloaderMiddleware(object):
2     def process_request(self, request, spider):
3             # 需要對得到的cookies處理成字典型別
4         request.cookies={}
5         request.headers["User-Agent"]=""

View Code

5、在settings中將DOWNLOADER_MIDDLEWARES開啟

6、在spiders目錄下找到gz.py開始編寫爬蟲邏輯處理

 1 import scrapy
 2 import time
 3 
 4 class GzSpider(scrapy.Spider):
 5     name = 'gz'
 6     allowed_domains = ['guazi.com']
 7     start_urls = ['https://www.guazi.com/cd/buy/0']
 8 
 9     def parse(self, response):
10         # 得到頁面上所有車輛的url
11         url_list = response.xpath('//ul[@class="carlist clearfix js-top"]//li/a/@href').extract()
12         url_list = [response.urljoin(url) for url in url_list]
13         url_list = [url.replace("cq", "cd") for url in url_list]
14         for url in url_list:
15             yield scrapy.Request(url=url, callback=self.parse1, dont_filter=True)
16         
17         # 獲取下一頁的url
18         next_url = response.urljoin(response.xpath('//span[text()="下一頁"]/../@href').extract_first())
19         if next_url:
20             yield scrapy.Request(url=next_url, callback=self.parse, dont_filter=True)
21         time.sleep(2)
22 
23     def parse1(self, response):
24         # 判斷是否有資料
25         if response.xpath('//h2/text()').extract_first():
26             print(response.xpath('//h2/text()').extract_first().strip())
27             item = {}
28             item["車型"] = response.xpath('//h2/text()').extract_first().strip()
29             item["選車型別"] = response.xpath('//h2/span/text()').extract_first()
30             item["價格/萬"] = response.xpath('//div[@class="pricebox js-disprice"]/span[1]/text()').extract_first().strip()
31             item["新車價格"] = response.xpath('//div[@class="pricebox js-disprice"]/span[2]/text()').extract_first().strip()
32             item["上牌時間"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[1]/div/text()').extract_first().strip()
33             item["公里數"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[2]/div/text()').extract_first().strip()
34             item["排量"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[3]/div/text()').extract_first().strip()
35             item["變速箱"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[4]/div/text()').extract_first().strip()
36             item["配置資訊"] = response.xpath('//span[@class="type-gray"]//text()').extract()
37             item["網址"] = response.url
38             yield item

View Code

7、啟動爬蟲並儲存為csv檔案

scrapy crawl gz -o guanzi.csv

View Code

8、最後得到了想要的二手車資訊，貼上部分截圖

Python scrapy框架爬取瓜子二手車資訊資料

專案實施依賴： python，scrapy ，fiddler scrapy安裝依賴的包：可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載 pywin32，lxml，Twisted，scrapy然後pip安裝專案實施開始： 1、建立scrapy專

Python爬蟲之爬取瓜子二手車資訊- requests方法

最近在做二手車市場資料分析，試著爬取瓜子二手車在售車輛資訊，做一下記錄大致思路如下： 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊： car_model = Field() # 車型資訊 registe

python scrapy框架爬取知乎提問資訊

前文介紹了python的scrapy爬蟲框架和登入知乎的方法. 這裡介紹如何爬取知乎的問題資訊,並儲存到mysql資料庫中. 首先,看一下我要爬取哪些內容: 如下圖所示,我要爬取一個問題的6個資訊: 問題的id(question_id) 標題(title) 問題描述

[Python爬蟲]Scrapy框架爬取bilibili個人資訊

啟動檔案main.py from scrapy.cmdline import execute execute('scrapy crawl bili_gr_xx'.split()) 執行spider下的爬取檔案 # -*- coding: ut

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

python中scrapy框架爬取攜程景點資料

--------------------------------------------------------------------------------------------- [版權申明：本文系作者原創，轉載請註明出處] 文章出處：https://blog.cs

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

利用scrapy框架爬取百度閱讀書籍資訊

專案需求：爬取百度閱讀的榜單圖書的資訊，如：書名、評分、作者、出版方、標籤、價格，生成一個csv檔案。專案的大致流程：建立spider工程專案，建立spider爬蟲，定義相關欄位，分析頁面資訊...... 由於scpapy框架，之間存在相互聯絡，針對此專案不同的檔案

使用Scrapy框架爬取360攝影圖片的資訊

要點 1.分析Ajax請求觀察到Ajax請求引數的變化，有一個引數sn一直在變化，當sn=30時，返回的時前30張圖片，listtype時排序方式，temp是引數可以忽略 2.構造請求和提取資訊 #

python爬蟲(16)使用scrapy框架爬取頂點小說網

本文以scrapy 框架來爬取整個頂點小說網的小說 1.scrapy的安裝這個安裝教程，網上有很多的例子，這裡就不在贅述了 2.關於scrapy scrapy框架是一個非常好的東西，能夠實現非同步爬取，節省時間，其實本文純粹的按照之前的思維來做，也不是不可以，但是感

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

Python爬蟲【實戰篇】scrapy 框架爬取某招聘網存入mongodb

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構 items.py title = scrapy.Field()

python爬蟲十一：scrapy框架爬取天氣，存入資料庫

小白學習：轉：https://zhuanlan.zhihu.com/p/268854121.cmd下scrapy startproject 專案名2.我一般都是在pycharm中編寫程式碼，所以我會在idea中引入專案，這裡不知道如何在pycharm中下載scrapy模組的童

用scrapy框架爬取映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

使用scrapy框架爬取蜂鳥論壇的攝影圖片並下載到本地

utf 賦值 col 異常處理創建文件夾 clas watermark follow ret 目標網站：http://bbs.fengniao.com/使用框架：scrapy 因為有很多模塊的方法都還不是很熟悉，所有本次爬蟲有很多代碼都用得比較笨，希望各位讀者能給處意見

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

python+scrapy+mongoDB爬取豆瓣top250

1.爬取網址：https://movie.douban.com/top250?start=0 通過scrapy startproject douban建立專案通過scrapy genspider doubanmovie "douban"建立spider 在settings.py檔

Python scrapy框架爬取瓜子二手車資訊資料

專案實施依賴：

scrapy安裝依賴的包：

專案實施開始：

相關推薦