Scrapy框架----- Downloader Middlewares

阿新 • • 發佈：2018-11-12

反反爬蟲相關機制

Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes require special infrastructure. Please consider contacting commercial support if in doubt.

(有些些網站使用特定的不同程度的複雜性規則防止爬蟲訪問，繞過這些規則是困難和複雜的，有時可能需要特殊的基礎設施，如果有疑問，請聯絡商業支援。)

來自於Scrapy官方文件描述：http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned

通常防止爬蟲被反主要有以下幾個策略：

動態設定User-Agent（隨機切換User-Agent，模擬不同使用者的瀏覽器資訊）
禁用Cookies（也就是不啟用cookies middleware，不向Server傳送cookies，有些網站通過cookie的使用發現爬蟲行為）
- 可以通過COOKIES_ENABLED 控制 CookiesMiddleware 開啟或關閉
設定延遲下載（防止訪問過於頻繁，設定為 2秒或更高）
Google Cache 和 Baidu Cache：如果可能的話，使用谷歌/百度等搜尋引擎伺服器頁面快取獲取頁面資料。
使用IP地址池：VPN和代理IP，現在大部分網站都是根據IP來ban的。

使用 Crawlera（專用於爬蟲的代理元件），正確配置和設定下載中介軟體後，專案所有的request都是通過crawlera發出。

  DOWNLOADER_MIDDLEWARES = {
      'scrapy_crawlera.CrawleraMiddleware': 600
  }

  CRAWLERA_ENABLED = True
  CRAWLERA_USER = '註冊/購買的UserKey'
  CRAWLERA_PASS = '註冊/購買的Password'

設定下載中介軟體（Downloader Middlewares）

下載中介軟體是處於引擎(crawler.engine)和下載器(crawler.engine.download())之間的一層元件，可以有多個下載中介軟體被載入執行。

當引擎傳遞請求給下載器的過程中，下載中介軟體可以對請求進行處理（例如增加http header資訊，增加proxy資訊等）；
在下載器完成http請求，傳遞響應給引擎的過程中，下載中介軟體可以對響應進行處理（例如進行gzip的解壓等）

要啟用下載器中介軟體元件，將其加入到 DOWNLOADER_MIDDLEWARES 設定中。該設定是一個字典(dict)，鍵為中介軟體類的路徑，值為其中介軟體的順序(order)。

這裡是一個例子:

DOWNLOADER_MIDDLEWARES = {
    'mySpider.middlewares.MyDownloaderMiddleware': 543,
}

編寫下載器中介軟體十分簡單。每個中介軟體元件是一個定義了以下一個或多個方法的Python類:

class scrapy.contrib.downloadermiddleware.DownloaderMiddleware

process_request(self, request, spider)

當每個request通過下載中介軟體時，該方法被呼叫。
process_request() 必須返回以下其中之一：一個 None 、一個 Response 物件、一個 Request 物件或 raise IgnoreRequest:
- 如果其返回 None ，Scrapy將繼續處理該request，執行其他的中介軟體的相應方法，直到合適的下載器處理函式(download handler)被呼叫，該request被執行(其response被下載)。
- 如果其返回 Response 物件，Scrapy將不會呼叫任何其他的 process_request() 或 process_exception() 方法，或相應地下載函式；其將返回該response。已安裝的中介軟體的 process_response() 方法則會在每個response返回時被呼叫。
- 如果其返回 Request 物件，Scrapy則停止呼叫 process_request方法並重新排程返回的request。當新返回的request被執行後，相應地中介軟體鏈將會根據下載的response被呼叫。
- 如果其raise一個 IgnoreRequest 異常，則安裝的下載中介軟體的 process_exception() 方法會被呼叫。如果沒有任何一個方法處理該異常，則request的errback(Request.errback)方法會被呼叫。如果沒有程式碼處理丟擲的異常，則該異常被忽略且不記錄(不同於其他異常那樣)。
引數:
- request (Request 物件) – 處理的request
- spider (Spider 物件) – 該request對應的spider

process_response(self, request, response, spider)

當下載器完成http請求，傳遞響應給引擎的時候呼叫

process_request() 必須返回以下其中之一: 返回一個 Response 物件、返回一個 Request 物件或raise一個 IgnoreRequest 異常。
- 如果其返回一個 Response (可以與傳入的response相同，也可以是全新的物件)，該response會被在鏈中的其他中介軟體的 process_response() 方法處理。
- 如果其返回一個 Request 物件，則中介軟體鏈停止，返回的request會被重新排程下載。處理類似於 process_request() 返回request所做的那樣。
- 如果其丟擲一個 IgnoreRequest 異常，則呼叫request的errback(Request.errback)。如果沒有程式碼處理丟擲的異常，則該異常被忽略且不記錄(不同於其他異常那樣)。
引數:
- request (Request 物件) – response所對應的request
- response (Response 物件) – 被處理的response
- spider (Spider 物件) – response所對應的spider

使用案例：

1. 建立`middlewares.py`檔案。

Scrapy代理IP、Uesr-Agent的切換都是通過DOWNLOADER_MIDDLEWARES進行控制，我們在settings.py同級目錄下建立middlewares.py檔案，包裝所有請求。

# middlewares.py

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import random
import base64 from settings import USER_AGENTS from settings import PROXIES # 隨機的User-Agent class RandomUserAgent(object): def process_request(self, request, spider): useragent = random.choice(USER_AGENTS) request.headers.setdefault("User-Agent", useragent) class RandomProxy(object): def process_request(self, request, spider): proxy = random.choice(PROXIES) if proxy['user_passwd'] is None: # 沒有代理賬戶驗證的代理使用方式 request.meta['proxy'] = "http://" + proxy['ip_port'] else: # 對賬戶密碼進行base64編碼轉換 base64_userpasswd = base64.b64encode(proxy['user_passwd']) # 對應到代理伺服器的信令格式裡 request.headers['Proxy-Authorization'] = 'Basic ' + base64_userpasswd request.meta['proxy'] = "http://" + proxy['ip_port']

為什麼HTTP代理要使用base64編碼：

HTTP代理的原理很簡單，就是通過HTTP協議與代理伺服器建立連線，協議信令中包含要連線到的遠端主機的IP和埠號，如果有需要身份驗證的話還需要加上授權資訊，伺服器收到信令後首先進行身份驗證，通過後便與遠端主機建立連線，連線成功之後會返回給客戶端200，表示驗證通過，就這麼簡單，下面是具體的信令格式：

CONNECT 59.64.128.198:21 HTTP/1.1
Host: 59.64.128.198:21
Proxy-Authorization: Basic bGV2I1TU5OTIz
User-Agent: OpenFetion

其中Proxy-Authorization是身份驗證資訊，Basic後面的字串是使用者名稱和密碼組合後進行base64編碼的結果，也就是對username:password進行base64編碼。

HTTP/1.0 200 Connection established

OK，客戶端收到收面的信令後表示成功建立連線，接下來要傳送給遠端主機的資料就可以傳送給代理伺服器了，代理伺服器建立連線後會在根據IP地址和埠號對應的連線放入快取，收到信令後再根據IP地址和埠號從快取中找到對應的連線，將資料通過該連線轉發出去。

2. 修改settings.py配置USER_AGENTS和PROXIES

新增USER_AGENTS：

　　USER_AGENTS = [
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6", "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0", "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5" ]

新增代理IP設定PROXIES：

免費代理IP可以網上搜索，或者付費購買一批可用的私密代理IP：

PROXIES = [
    {'ip_port': '111.8.60.9:8123', 'user_passwd': 'user1:pass1'},
    {'ip_port': '101.71.27.120:80', 'user_passwd': 'user2:pass2'}, {'ip_port': '122.96.59.104:80', 'user_passwd': 'user3:pass3'}, {'ip_port': '122.224.249.122:8088', 'user_passwd': 'user4:pass4'}, ]

除非特殊需要，禁用cookies，防止某些網站根據Cookie來封鎖爬蟲。

COOKIES_ENABLED = False

設定下載延遲

DOWNLOAD_DELAY = 3

最後設定setting.py裡的DOWNLOADER_MIDDLEWARES，新增自己編寫的下載中介軟體類。

DOWNLOADER_MIDDLEWARES = {
    #'mySpider.middlewares.MyCustomDownloaderMiddleware': 543,
    'mySpider.middlewares.RandomUserAgent': 1,
    'mySpider.middlewares.ProxyMiddleware': 100 }

Scrapy框架----- Downloader Middlewares

反反爬蟲相關機制 Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measure

python之scrapy(四)downloader middlewares的用法

下載中介軟體是處於引擎(Engine)和下載器（DownLoader）)之間的一層元件，可以有多個下載中介軟體被載入執行。當引擎傳遞請求給下載器的過程中，下載中介軟體可以對請求進行處理（例如增加http header資訊，增加proxy資訊等）；在

scrapy Downloader Middlewares 中介軟體

class UserAgentMiddleware(object): """ Change User-Agent """ def process_request(self, request, spider): agent = random.choice(agents

scrapy框架設置代理

ase param his utf-8 httpproxy down json eth head 網易音樂在單ip請求下經常會遇到網頁返回碼503的情況經查詢，503為單個ip請求流量超限，猜測是網易音樂的一種反扒方式因原音樂下載程序采用scrapy框架，所以需要在scra

初次接觸scrapy框架

self 文件夾內容 bsp mil 分享 response 記事本寫入初次接觸這個框架，先訂個小目標，抓取QQ首頁，然後存入記事本。安裝框架（http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.htm

Python爬蟲從入門到放棄（十一）之 Scrapy框架整體的一個了解

object 定義 roc encoding eth obi pipe pos 等等這裏是通過爬取伯樂在線的全部文章為例子，讓自己先對scrapy進行一個整理的理解該例子中的詳細代碼會放到我的github地址：https://github.com/pythonsite/

Python爬蟲從入門到放棄（十三）之 Scrapy框架的命令行詳解

directory xpath idf 成了 spider i386 名稱 4.2 不同的這篇文章主要是對的scrapy命令行使用的一個介紹創建爬蟲項目 scrapy startproject 項目名例子如下： localhost:spider zhaofan$ sc

第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄—獲取Scrapy框架Cookies

pid 設置 ade form 需要 span coo decode firefox 第三百三十三節，web爬蟲講解2—Scrapy框架爬蟲—Scrapy模擬瀏覽器登錄模擬瀏覽器登錄 start_requests()方法，可以返回一個請求給爬蟲的起始網站，這個返回的請求相

爬蟲——Scrapy框架案例一：手機APP抓包

debug domain hone targe allow topic document more ebs 以爬取鬥魚直播上的信息為例： URL地址：http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&of

爬蟲——Scrapy框架案例二：陽光問政平臺

web url地址 blog rem idt xpath disable ora ole 陽光熱線問政平臺 URL地址：http://wz.sun0769.com/index.php/question/questionType?type=4&page= 爬取字段：帖

mac os安裝scrapy框架

true ins 是否 bre 顯示 light cnblogs class 只需要因為Mac 自帶了python 2.7 所以只需要安裝pip包管理工具安裝scrapy就可以了 sudo easy_install pip 然後 pip install Scrap

安裝scrapy框架

pat 接口 rip path 2.7 win nload 令行 easy 前提安裝好python、setuptools。 1.安裝Python 安裝完了記得配置環境，將python目錄和python目錄下的Scripts目錄添加到系統環境變量的Path裏。在

用scrapy框架爬取映客直播用戶頭像

xpath print main back int open for pri nbsp 1. 創建項目 scrapy startproject yingke cd yingke 2. 創建爬蟲 scrapy genspider live 3. 分析http://www.i

Python3.6下scrapy框架的安裝

twisted 方法安裝 get ont 下載地址 .whl files link 解決問題首先考慮使用最簡單的方法安裝 pip install scrapy 命令安裝，提示 Failed building wheel for Twisted Microsof

初識 scrapy 框架 - 安裝

pac twisted pin 離線 con generate val images mark 前面豆子學習了基本的urllib的模塊，通過這個模塊可以寫一些簡單的爬蟲文件。如果要處理大中型的爬蟲項目，urllib就顯得比較low了，這個時候可以使用scrapy框架來實現，

scrapy框架系列 (2) 一個簡單案例

com 必須 res 逗號大致繼承中文 append .sh 學習目標創建一個Scrapy項目定義提取的結構化數據(Item) 編寫爬取網站的 Spider 並提取出結構化數據(Item) 編寫 Item Pipelines 來存儲提取到的Item(即結構化數據

scrapy框架系列 (4) Scrapy Shell

@class 元素 tid 之前 AR htm nbsp 招聘 cas Scrapy Shell Scrapy終端是一個交互終端，我們可以在未啟動spider的情況下嘗試及調試代碼，也可以用來測試XPath或CSS表達式，查看他們的工作方式，方便我們爬取的網頁中提取的數據。

scrapy框架系列 (5) Spider類

err pre inf ack tail ise dump 內容 sta Spider Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。換句話說，Spider就是您定義爬取的動作及

scrapy框架系列 (3) Item Pipline

comment 順序 spi .py ini params config con ensure item pipeline 當Item在Spider中被收集之後，它將會被傳遞到Item Pipeline，這些Item Pipeline組件按定義的順序處理Item。每個It

爬蟲系列---Scrapy框架學習

產生 follow everyone 頁面 pos per iso select -s 項目的需求需要爬蟲某網的商品信息，自己通過Requests,BeautifulSoup等編寫了一個spider，把抓取的數據存到數據庫裏面。跑起來的感覺速度有點慢，尤其是進入詳情頁

Scrapy框架----- Downloader Middlewares

反反爬蟲相關機制

Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes require special infrastructure. Please consider contacting commercial support if in doubt.

(有些些網站使用特定的不同程度的複雜性規則防止爬蟲訪問，繞過這些規則是困難和複雜的，有時可能需要特殊的基礎設施，如果有疑問，請聯絡商業支援。)

通常防止爬蟲被反主要有以下幾個策略：

設定下載中介軟體（Downloader Middlewares）

process_request(self, request, spider)

process_response(self, request, response, spider)

使用案例：

1. 建立middlewares.py檔案。

2. 修改settings.py配置USER_AGENTS和PROXIES

相關推薦

1. 建立`middlewares.py`檔案。