Python爬蟲：Scrapy中介軟體middleware和Pipeline

阿新 • • 發佈：2018-12-21

在這裡插入圖片描述

Scrapy提供了可自定義2種中介軟體，1個數據處理器

名稱	作用	使用者設定
資料收集器（Item-Pipeline)	處理item	覆蓋
下載中介軟體（Downloader-Middleware）	處理request/response	合併
爬蟲中介軟體（Spider-Middleware）	處理item/response/request	合併

解釋：使用者設定：是指custom_settings

可是它們繼承的父類竟然是Object…，每次都要查文件。

正常來說應該提供一個抽象函式作為介面，給使用者實現自己的具體功能，不知道為啥這麼設計

通過幾段程式碼及註釋，簡要說明三個中介軟體的功能

1、Spider

baidu_spider.py


from scrapy import Spider, cmdline

class BaiduSpider(Spider):
    name = "baidu_spider"

    start_urls = [
        "https://www.baidu.com/"
    ]

    custom_settings = {
        "SPIDER_DATA": "this is spider data",
        "DOWNLOADER_MIDDLEWARES": {
                "scrapys.mymiddleware.MyMiddleware" 
: 100,
            },
        "ITEM_PIPELINES": {
            "scrapys.mypipeline.MyPipeline": 100,
        },
        "SPIDER_MIDDLEWARES":{
            "scrapys.myspidermiddleware.MySpiderMiddleware": 100,
        }
    }

    def parse(self, response):
        pass


if __name__ == '__main__':
    cmdline. 
execute("scrapy crawl baidu_spider".split())

2、Pipeline

mypipeline.py


class MyPipeline(object):
    def __init__(self, spider_data):
        self.spider_data = spider_data

    @classmethod
    def from_crawler(cls, crawler):
        """
        獲取spider的settings引數,返回Pipeline例項物件
        """
        spider_data = crawler.settings.get("SPIDER_DATA")
        print("### pipeline get spider_data: {}".format(spider_data))

        return cls(spider_data)

    def process_item(self, item, spider):
        """
        return Item 繼續處理
        raise DropItem 丟棄
        """
        print("### call process_item")

        return item

    def open_spider(self, spider):
        """
        spider開啟時呼叫
        """
        print("### spdier open {}".format(spider.name))


    def close_spider(self, spider):
        """
        spider關閉時呼叫
        """
        print("### spdier close {}".format(spider.name))

3、Downloader-Middleware

mymiddleware.py


class MyMiddleware(object):
    def __init__(self, spider_data):
        self.spider_data = spider_data

    @classmethod
    def from_crawler(cls, crawler):
        """
        獲取spider的settings引數,返回中介軟體例項物件
        """
        spider_data = crawler.settings.get("SPIDER_DATA")
        print("### middleware get spider_data: {}".format(spider_data))

        return cls(spider_data)

    def process_request(self, request, spider):
        """
        return
            None: 繼續處理Request
            Response: 返回Response
            Request: 重新排程
        raise IgnoreRequest:  process_exception -> Request.errback
        """
        print("### call process_request")

    def process_response(self, request, response, spider):
        """
        return
            Response: 繼續處理Response
            Request: 重新排程
        raise IgnoreRequest: Request.errback
        """
        print("### call process_response")
        return response

    def process_exception(self, request, exception, spider):
        """
        return
            None: 繼續處理異常
            Response: 返回Response
            Request: 重新呼叫
        """
        pass

4、Spider-Middleware

myspidermiddleware.py


class MySpiderMiddleware(object):
    def __init__(self, spider_data):
        self.spider_data = spider_data

    @classmethod
    def from_crawler(cls, crawler):
        """
        獲取spider的settings引數,返回中介軟體例項物件
        """
        spider_data = crawler.settings.get("SPIDER_DATA")
        print("### spider middleware get spider_data: {}".format(spider_data))

        return cls(spider_data)

    def process_spider_input(self, response, spider):
        """
        response通過時呼叫
        return None  繼續處理response
        raise Exception
        """

        print("### call process_spider_input")

    def process_spider_output(self, response, result, spider):
        """
        response返回result時呼叫
        return
            iterable of Request、dict or Item
        """
        print("### call process_spider_output")

        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        """
        return
            None
            iterable of Response, dict, or Item
        """
        pass

執行爬蟲後，檢視日誌

### middleware get spider_data: this is spider data
### spider middleware get spider_data: this is spider data
### pipeline get spider_data: this is spider data

### spdier open baidu_spider
### call process_request
### call process_response
### call process_spider_input
### call process_spider_output
### spdier close baidu_spider

根據日誌輸出資訊，看到大致流程是和Scrapy資料流向圖保持一致的

Python爬蟲：Scrapy中介軟體middleware和Pipeline

Scrapy提供了可自定義2種中介軟體，1個數據處理器名稱作用使用者設定資料收集器（Item-Pipeline) 處理item 覆蓋下載中介軟體（Downloader-M

python爬蟲之scrapy中介軟體介紹

一、概述　　1.中介軟體的作用在scrapy執行的整個過程中,對scrapy框架執行的某些步驟做一些適配自己專案的動作. 　　例如scrapy內建的HttpErrorMiddleware,可以在ht

Python爬蟲：Scrapy的Crawler物件及擴充套件Extensions和訊號Signals

先了解Scrapy中的Crawler物件體系 Crawler物件 settings crawler的配置管理器 set(name, value, priority=‘project’) setdict(values, priority=‘p

python爬蟲：scrapy框架xpath和css選擇器語法

Xpath基本語法一、常用的路徑表示式：表示式描述例項 nodename 選取nodename節點的所有子節點 //div / 從根節點選取

Python爬蟲：Scrapy除錯執行單個爬蟲

一般執行Scrapy專案的爬蟲是在命令列輸入指令執行的： $ scrapy crawl spider 每次都輸入還是比較麻煩的，偶爾還會敲錯，畢竟能少動就少動 Scrapy提供了一個命令列工具，可以在單個spider檔案中加入以下程式碼： from scrapy im

Python爬蟲：Scrapy的get請求和post請求

scrapy 請求繼承體系 Request |-- FormRequest 通過以下請求測試 GET: https://httpbin.org/get POST: https://httpbin.org/post get請求方式：通過Request 傳送 im

Python爬蟲：selenium開啟新視窗和多視窗切換

上說可以通過傳送按鍵事件觸發，比如ctrl+T，不過我沒成功，使用了js開啟新視窗的方式程式碼示例 # -*- coding: utf-8 -*- # @File : switch_tab.py # @Date : 2018-07-27

Python爬蟲：Scrapy框架基礎框架結構及騰訊爬取

Scrapy終端是一個互動終端，我們可以在未啟動spider的情況下嘗試及除錯程式碼，也可以用來測試XPath或CSS表示式，檢視他們的工作方式，方便我們爬取的網頁中提取的資料。如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標準Python終端)。 IPytho

Python爬蟲：scrapy爬蟲設定隨機訪問時間間隔

scrapy中有一個引數：DOWNLOAD_DELAY 或者 download_delay 可以設定下載延時，不過Spider類被初始化的時候就固定了，爬蟲執行過程中沒發改變。隨機延時，可以降低被封

Python爬蟲：scrapy框架Spider類引數設定

Spider設定引數說明示例 name 爬蟲名稱，必須唯一 name = “myspider” handle_httpstatus_list 需要

python爬蟲之Scrapy框架中的Item Pipeline用法

RoCE 執行 ise inf 優先執行 sin .com 如果 ica 當Item在Spider中被收集之後, 就會被傳遞到Item Pipeline中進行處理. 每個item pipeline組件是實現了簡單的方法的python類, 負責接收到item並通過它執行一些

Python 爬蟲框架 Scrapy 在 Windows10 系統環境下的安裝和配置

環境： Windows10 系統、python3.4.3 版本安裝 Scrapy ：使用 pip 安裝 Scrapy,在命令列視窗中輸入命令 “pip install Scrapy”,若不報錯即可安裝成功。注意：可在命令列視窗中輸入命令“pip -h”測試 pip 模組是否已安

Python爬蟲：Request Payload和Form Data的簡單區別

Request Payload 和 Form Data 請求頭上的引數差別在於： Content-Type Form Data Post表單請求程式碼示例 headers = { "Content-Type": "application/x-www-form-urlen

Scrapy爬蟲 -- 編寫下載中介軟體，實現隨機User-Agent

Scrapy爬蟲 -- 編寫下載中介軟體，實現隨機User-Agent 實現步驟： 1. 在middlewares.p中，新建一個下載中介軟體； 2. 建立process_request方法（引擎傳送request物件到下載器時的回撥函式），實現隨機User-Agent的功能； 3.

在linux和windows下安裝python爬蟲框架scrapy

一、在linux下安裝 1）先下python，2.7版本的； 2）再下pip.py檔案，然後執行：sudopythonget-pip.py 3）執行命令： pip install scrapy 二、在windows下安裝非常的麻煩... 1）先下python，2.7版本

python爬蟲執行scrapy crawl demo出現： import win32api ModuleNotFoundError: No module named 'win32api'錯誤

執行： >scrapy crawl demo 可能會出現這個錯誤： import win32api ModuleNotFoundError: No module named 'win32api' 下載依賴唄：https://pypi.org/project/py

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

Python 爬蟲正則抽取網頁資料和Scrapy簡單使用

Python新手前些天看了一些基本語法發現繼續看下去效果甚微(枯(ji)燥(mo)了) 知乎上面的大神都說爬蟲那我就從爬蟲開始實踐學習吧先從簡單的靜態的一個頁面開始幹什麼都得按照套路來一哥們經常這樣說幹啥事都有套路跟著我左手右手一個

Python爬蟲：python2使用scrapy輸出unicode亂碼

無力吐槽的python2，對中文太不友好了，不過在早期專案中還是需要用到沒辦法，還是需要解決我編寫scrapy爬蟲的一般思路：建立spider檔案和類編寫parse解析函式，抓取測試，將有用資訊輸出到控制檯在資料庫中建立資料表編寫item 編

python爬蟲：爬取貓眼電影（分數的處理和多執行緒）

爬取用的庫是requests和beautifulsoup，程式碼編寫不難，主要是個別的細節處理需要注意 1、電影得分的處理右鍵審查元素，我們看到分數的整數部分和小數部分是分開的，在beautifulsoup中，我們可以用（.strings或者.stripped_stri

Python爬蟲：Scrapy中介軟體middleware和Pipeline

1、Spider

2、Pipeline

3、Downloader-Middleware

4、Spider-Middleware

相關推薦