Python Scrapy多層爬取收集資料

阿新 • • 發佈：2018-12-16

最近用Scrapy做爬蟲的時候碰到資料分佈在多個頁面，要發去多次請求才能收集到足夠的資訊，例如列表只有簡單的幾個資訊，更多的資訊在內頁。檢視官方文件沒找到相關的案例或說明，這個有點坑。

最後自己查了寫資料，研究後一下，終於整出來了。

yield scrapy.Request(item['url'], meta={'item': item}, callback=self.detail_parse)

Scrapy 用scrapy.Request發起請求可以帶上 meta={'item': item} 把之前已收集到的資訊傳遞到新請求裡，在新請求裡用 item = response.meta('item') 接受過來，在 item 就可以繼續新增新的收集的資訊了。

多少級的請求的資料都可以收集。

程式碼演示如下：

spider.py

# -*- coding: utf-8 -*-
import scrapy
from Tencent.items import TencentItem


class TencentSpider(scrapy.Spider):
    # 爬蟲名稱
    name = 'tencent'
    # 允許爬取的域名
    allowed_domains = ['www.xxx.com']
    # 爬蟲基礎地址 用於爬蟲域名的拼接
    base_url = 'https://www.xxx.com/'
    # 爬蟲入口爬取地址
    start_urls = ['https://www.xxx.com/position.php']
    # 爬蟲爬取頁數控制初始值
    count = 1
    # 爬蟲爬取頁數 10為只爬取一頁
    page_end = 1

    def parse(self, response):


        nodeList = response.xpath("//table[@class='tablelist']/tr[@class='odd'] | //table[@class='tablelist']/tr[@class='even']")
        for node in nodeList:
            item = TencentItem()

            item['title'] = node.xpath("./td[1]/a/text()").extract()[0]
            if len(node.xpath("./td[2]/text()")):
                item['position'] = node.xpath("./td[2]/text()").extract()[0]
            else:
                item['position'] = ''
            item['num'] = node.xpath("./td[3]/text()").extract()[0]
            item['address'] = node.xpath("./td[4]/text()").extract()[0]
            item['time'] = node.xpath("./td[5]/text()").extract()[0]
            item['url'] = self.base_url + node.xpath("./td[1]/a/@href").extract()[0]
            # 根據內頁地址爬取
            yield scrapy.Request(item['url'], meta={'item': item}, callback=self.detail_parse)

            # 有下級頁面爬取 註釋掉資料返回
            # yield item

        # 迴圈爬取翻頁
        nextPage = response.xpath("//a[@id='next']/@href").extract()[0]
        # 爬取頁數控制及末頁控制
        if self.count < self.page_end and nextPage != 'javascript:;':
            if nextPage is not None:
                # 爬取頁數控制值自增
                self.count = self.count + 1
                # 翻頁請求
                yield scrapy.Request(self.base_url + nextPage, callback=self.parse)
        else:
            # 爬蟲結束
            return None

    def detail_parse(self, response):
        # 接收上級已爬取的資料
        item = response.meta['item']   

        #一級內頁資料提取 
        item['zhize'] = response.xpath("//*[@id='position_detail']/div/table/tr[3]/td/ul[1]").xpath('string(.)').extract()[0]
        item['yaoqiu'] = response.xpath("//*[@id='position_detail']/div/table/tr[4]/td/ul[1]").xpath('string(.)').extract()[0]

        # 二級內頁地址爬取
        yield scrapy.Request(item['url'] + "&123", meta={'item': item}, callback=self.detail_parse2)

        # 有下級頁面爬取 註釋掉資料返回
        # return item

    def detail_parse2(self, response):
        # 接收上級已爬取的資料
        item = response.meta['item']

        # 二級內頁資料提取 
        item['test'] = "111111111111111111"

        # 最終返回資料給爬蟲引擎
        return item

item 結構化資料

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class TencentItem(scrapy.Item):
    # define the fields for your item here like:
    # 職位名稱
    title = scrapy.Field()
    # 職位類別
    position = scrapy.Field()
    # 招聘人數
    num = scrapy.Field()
    # 工作地點
    address = scrapy.Field()
    # 釋出時間
    time = scrapy.Field()
    # 詳情連結
    url = scrapy.Field()
    # 工作職責
    zhize = scrapy.Field()
    # 工作要求
    yaoqiu = scrapy.Field()
    # 測試
    test = scrapy.Field()

Python Scrapy多層爬取收集資料

最近用Scrapy做爬蟲的時候碰到資料分佈在多個頁面，要發去多次請求才能收集到足夠的資訊，例如列表只有簡單的幾個資訊，更多的資訊在內頁。檢視官方文件沒找到相關的案例或說明，這個有點坑。最後自己查了寫資料，研究後一下，終於整出來了。 yield scrapy.Request(item

scrapy專案總結——爬取汙染資料的專案

經過一段時間的學習，開始慢慢學會了使用scray簡單的爬取資料。這個專案起源是對汙染資料的需求。起初找到一個網站，嘗試對其進行爬取，但是網站涉及到動態載入的問題，目前本人只學會了靜態網站的爬取，所以放棄了。等後期學習後會返回進行嘗試。網址為： ht

使用python+selenium+PantomJs+javascript爬取專利資料

環境準備安裝python3.5 selenium 下載PantomJs.exe 爬取目標專利網站爬取專利名，申請人，發明人等爬取過程通過selenium獲取PhantomJs的webdriver例項

一個月帶你入門Python爬蟲，輕鬆爬取大規模資料

Python爬蟲為什麼受歡迎如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，網

一個月入門Python爬蟲，輕鬆爬取大規模資料

這次作業選擇爬取的網站是噹噹網，噹噹有比較多的圖書資料，特別是五星圖書，包含了各個領域最受歡迎的圖書資訊，對於尋找有價值的圖書、分析好書的銷售情況具有一定的價值。最終爬取的資料如下，總共10000+行資料：我想爬取的資料是各分類（小說、中小學教輔、文學、成功/勵志……）下面的五星圖書資訊（書名、評論數、作者、

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

（轉載請註明出處）哈嘍，大家好~前言：這次寫這個小指令碼的目的是為了給老師幫個小忙，爬取某一商品的資訊，寫完覺得這個程式似乎也可以用在更普遍的地方，所以就放出來給大家看看啦，然後因為是在很短時間寫的，所以自然有很多不足之處，想著總之實現了功能再說吧，程式碼太醜大不了之後再重構

Python利用scrapy框架，爬取大眾點評部分商鋪資料~

分享一下，自己從0開始，用python爬取資料的歷程。希望可以可以幫到一起從0開始的小夥伴~~加油。首先，我的開發環境是：電腦：macOS Sierra 10.12.6 編譯器：PyCharm + 終端我的電腦自帶的Python版本為2.7，我下載了一個Python3.6。使

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

[Python爬蟲]爬蟲例項:爬取酷狗TOP500的資料

根據書籍《從零開始學Python網路爬蟲》P41，綜合案例2—爬取酷狗TOP500的資料修改而來. 使用模組requests和模組BeautifukSoup進行爬取. 不得不說，酷狗拿來跑爬蟲真是好，不ban不限制IP~ 要爬取的頁面資訊酷狗TOP500 需要爬

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---修改為多程序爬蟲

第二次修改的地址---->爬蟲例項:爬取PEXELS圖片—解決非同步載入問題在前面的修改中,我們通過使用逆向工程成功解決了非同步載入的問題.但同時還有一個問題:效率問題,受限於網速,假如使用單程序下載圖片時下載的速度沒有佔滿,而使用多個程序時下載速度能夠佔滿的話,那麼多程序爬蟲在

scrapy框架用post 爬取網站資料的兩種方法區別

post請求，一定要重新呼叫父類的 start_requests(self)方法方法1：（推薦）重構start_requests def start_requests(self): data = { 'source': 'index_na

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

python 將爬取的資料儲存在資料庫裡

python 將爬取的資料儲存在資料庫裡 import urllib.request import re import sqlite3 response = urllib.request.urlopen("https://search.51job.com/list/010000%252C

python爬蟲Scrapy(一)-我爬了boss資料 MongoDB基本命令操作

一、概述學習python有一段時間了，最近了解了下Python的入門爬蟲框架Scrapy，參考了文章Python爬蟲框架Scrapy入門。本篇文章屬於初學經驗記錄，比較簡單，適合剛學習爬蟲的小夥伴。這次我選擇爬取的是boss直聘來資料，畢竟這個網站的

python爬取json資料

# coding utf-8 import requests import json import datetime import pymysql user_agent = 'User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1;

python 使用selenium和requests爬取頁面資料

目的：獲取某網站某使用者下市場大於1000秒的視訊資訊 1.本想通過介面獲得結果，但是使用post傳送資訊到介面，提示服務端錯誤。 2.通過requests獲取頁面結果，使用html解析工具，發現麻煩而且得不到想要的結果 3.直接通過selenium獲取控制元件的屬性資訊，如圖片、視訊地址，再對時間進行篩選

你以為Python爬蟲只能爬取網頁資料嗎？APP也是可以的呢！

摘要大多數APP裡面返回的是json格式資料，或者一堆加密過的資料。這裡以超級課程表APP為例，抓取超級課程表裡使用者發的話題。 1 抓取APP資料包方法詳細可以參考這篇博文：http://my.oschina.net/jhao104/blog/605963 得到超級課程表

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

利用爬蟲我們可以獲取大量的價值資料，從而獲得感性認識中不能得到的資訊，這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料，感興趣的朋友一起看看吧資料獲取方式：Python技術學習QQ群832339352 新增即可免費獲取！ Python爬蟲為

Python Scrapy多層爬取收集資料

相關推薦