三十二、scrapy中介軟體的使用

阿新 • • 發佈：2018-12-27

1. scrapy中介軟體的分類和作用

1.1 scrapy中介軟體的分類

根據scrapy執行流程中所在位置不同分為：

下載中介軟體
爬蟲中介軟體

1.2 scrapy中間的作用：預處理request和response物件

如對非200響應的重試（重新構造Request物件yield給引擎）
也可以對header以及cookie進行更換和處理
使用代理ip等

但在scrapy預設的情況下兩種中介軟體都在middlewares.py一個檔案中，爬蟲中介軟體使用方法和下載中介軟體相同，且功能重複，常使用下載中介軟體

2. 下載中介軟體的使用方法：

接下來我們對騰訊招聘爬蟲進行修改完善，通過下載中介軟體來學習如何使用中介軟體編寫一個Downloader Middlewares和我們編寫一個pipeline一樣，定義一個類，然後在setting中開啟

Downloader Middlewares預設的方法：

 process_request(self, request, spider)：

當每個request通過下載中介軟體時，該方法被呼叫。
返回None值：沒有return也是返回None，該request物件傳遞給下載器，或通過引擎傳遞給其他權重低的process_request方法

返回Response物件：不再請求，把response返回給引擎
返回Request物件：把request物件通過引擎交給排程器，此時將不通過其他權重低的process_request方法

process_response(self, request, response, spider)：

當下載器完成http請求，傳遞響應給引擎的時候呼叫
返回Resposne：通過引擎交給爬蟲處理或交給權重更低的其他下載中介軟體的process_response方法
返回Request物件：通過引擎交給調取器繼續請求，此時將不通過其他權重低的process_request方法

在settings.py中配置開啟中介軟體，權重值越小越優先執行

3. 定義實現隨機User-Agent的下載中介軟體

3.1 在middlewares.py中完善程式碼

import random
from Tencent.settings import USER_AGENTS_LIST # 注意匯入路徑,請忽視pycharm的錯誤提示

class UserAgentMiddleware(object):
    def process_request(self, request, spider):
        user_agent = random.choice(USER_AGENTS_LIST)
        request.headers['User-Agent'] = user_agent
        # 不寫return

class CheckUA:
    def process_response(self,request,response,spider):
        print(request.headers['User-Agent'])
        return response # 不能少！

3.2 在settings中設定開啟自定義的下載中介軟體，設定方法同管道

DOWNLOADER_MIDDLEWARES = {
   'Tencent.middlewares.UserAgentMiddleware': 543, # 543是權重值
   'Tencent.middlewares.CheckUA': 600, # 先執行543權重的中介軟體，再執行600的中介軟體
}

3.3 在settings中新增UA的列表

USER_AGENTS_LIST = [
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"
]

執行爬蟲觀察現象

4. 代理ip的使用

4.1 思路分析

代理新增的位置：request.meta中增加proxy欄位
獲取一個代理ip，賦值給request.meta[‘proxy’]
代理池中隨機選擇代理ip
代理ip的webapi傳送請求獲取一個代理ip

4.2 具體實現

（1）免費代理ip：

class ProxyMiddleware(object):
    def process_request(self,request,spider):
        # proxies可以在settings.py中，也可以來源於代理ip的webapi
        # proxy = random.choice(proxies) 

        # 免費的會失效，報 111 connection refused 資訊！重找一個代理ip再試
        proxy = 'https://1.71.188.37:3128' 

        request.meta['proxy'] = proxy
        return None # 可以不寫return

（2）收費代理ip：
（按照官方要求使用）

# 人民幣玩家的程式碼(使用abuyun提供的代理ip)
import base64

# 代理隧道驗證資訊  這個是在那個網站上申請的
proxyServer = 'http://proxy.abuyun.com:9010' # 收費的代理ip伺服器地址，這裡是abuyun
proxyUser = 使用者名稱
proxyPass = 密碼
proxyAuth = "Basic " + base64.b64encode(proxyUser + ":" + proxyPass)

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        # 設定代理
        request.meta["proxy"] = proxyServer
        # 設定認證
        request.headers["Proxy-Authorization"] = proxyAuth

4.3 檢測代理ip是否可用

在使用了代理ip的情況下可以在下載中介軟體的process_response()方法中處理代理ip的使用情況，如果該代理ip不能使用可以替換其他代理ip

class ProxyMiddleware(object):
    ......
    def process_response(self, request, response, spider):
        if response.status != '200':
            request.dont_filter = True # 重新發送的請求物件能夠再次進入佇列
            return requst

在settings.py中開啟該中介軟體

5. 在中介軟體中使用selenium

以github登陸為例

5.1 完成爬蟲程式碼

import scrapy

class Login4Spider(scrapy.Spider):
    name = 'login4'
    allowed_domains = ['github.com']
    start_urls = ['https://github.com/1596930226'] # 直接對驗證的url傳送請求

    def parse(self, response):
        with open('check.html', 'w') as f:
            f.write(response.body.decode())

5.2 在middlewares.py中使用selenium

import time
from selenium import webdriver

def getCookies():
    # 使用selenium模擬登陸，獲取並返回cookie
    username = input('輸入github賬號:')
    password = input('輸入github密碼:')
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--disable-gpu')
    driver = webdriver.Chrome('/home/worker/Desktop/driver/chromedriver',
                              chrome_options=options)
    driver.get('https://github.com/login')
    time.sleep(1)
    driver.find_element_by_xpath('//*[@id="login_field"]').send_keys(username)
    time.sleep(1)
    driver.find_element_by_xpath('//*[@id="password"]').send_keys(password)
    time.sleep(1)
    driver.find_element_by_xpath('//*[@id="login"]/form/div[3]/input[3]').click()
    time.sleep(2)
    cookies_dict = {cookie['name']: cookie['value'] for cookie in driver.get_cookies()}
    driver.quit()
    return cookies_dict

class LoginDownloaderMiddleware(object):

    def process_request(self, request, spider):
        cookies_dict = getCookies()
        print(cookies_dict)
        request.cookies = cookies_dict # 對請求物件的cookies屬性進行替換

配置檔案中設定開啟該中介軟體後，執行爬蟲可以在日誌資訊中看到selenium相關內容

三十二、scrapy中介軟體的使用

1. scrapy中介軟體的分類和作用 1.1 scrapy中介軟體的分類根據scrapy執行流程中所在位置不同分為：下載中介軟體爬蟲中介軟體 1.2 scrapy中間的作用：預處理request和response物件如對非200響應的

三十二、iptables filter表小案例、iptables nat表應用

iptables小案例 iptables應用三十二、iptables filter表小案例、iptables nat表應用一、iptables filter表小案例需求：只針對filter表，預設策略INPUT鏈DROP，其他兩個鏈ACCEPT，然後針對192.168.188.0/24開通22端口，

三十二、python學習之Flask框架(四)模板：jinja2模板、過濾器、模板複用(繼承、巨集、包含)、瞭解CSRF跨站請求攻擊

一、jinja2模板引擎的簡介: 1.模板: 1.1檢視函式的兩個作用: 處理業務邏輯; 返回響應內容; 1.3 什麼是模板: 模板其實是一個包含響應文字的檔案，不是特指的html檔案，其中用佔位符(變數)表示動態部分，告訴模板引擎其具體的

從零開始之驅動發開、linux驅動（三十二、簡單方式的lcd的背光碟機動）

前面lcd章節我們知道了LCD的背光可以由兩種方式決定調節： 1.一種是I/O口直接輸出高低電平來控制背光的量滅，這種方式簡單，但不能調背光亮度。 2.另一種是採用PWM調節脈衝寬度的方式來控制背光，這種方式需要採用PWM驅動來實現，優點是可以調節螢幕亮度，節省電量。

三十二、MyBatis註解SQL

指令碼sql XML配置方式的動態SQL我就不講了，有興趣可以自己瞭解，下面是用<script>的方式把它照搬過來，用註解來實現。適用於xml配置轉換到註解配置很明顯，在java中寫xml可讀性和維護性太差，尤其當SQL很長時，這樣寫是很痛苦的。 //查詢所有，@Results欄

三十二、Vue-router入門

三十二、索引導致分割槽表變慢的解析

1、索引導致分割槽表變慢分割槽表上建索引，相當於每個分割槽建了一個小索引。 drop table part_tab purge; --建立分割槽表，id列分割槽 create table part_tab (id int,col2 int,col3 int) p

三十二、HDFS產生背景、概念、優缺點、塊大小

HDFS產生背景、概念、優缺點、塊大小 1、HDFS概念 HDFS，它是一個檔案系統，用於儲存檔案，通過目錄樹來定位檔案；其次，它是

三十二、cookie資料、JSON及JSON.parse()方法

一、JS中cookie資料 1.cookie：用於儲存web頁面的使用者資訊。 cookie是一些資料，儲存於電腦上的文字檔案中，當web伺服器向瀏覽器傳送web頁面時，在連線關閉後，服務端不會記錄使用者的資訊。 2.作用：解決“如何記錄客戶端的使用者資訊”： &nb

三十二、Springboot 配置

（一）配置的作用 Spring Boot 應用的外部配置資源，這些配置資源能夠與程式碼相互配合，避免硬編碼方式，提供應用資料或行為變化的靈活性。（二）型別 Properties 檔案 YAML 檔案環境變數 Java 系統屬性命令列（三）載入順

三十一、scrapy管道的使用

1. pipeline中常用的方法： process_item(self,item,spider): （1）管道類中必須有的函式（2）實現對item資料的處理（3）必須return item (能夠讓權重較低的函式能夠獲取的引數) （4）引數spider就是yield ite

三十二、Linux 程序與訊號——不可靠訊號

32.1 不可靠訊號問題發生訊號時關聯動作被重置為預設設定訊號可能丟失程式片段在進入 sig_int 與再次呼叫 signal 之間發生的 SIGINT 訊號將不會捕獲導致程序終止　　　　 &nbs

三十二、python操作XML檔案

''' XML:模組 xml總結 1、解析 str 檔案 tree,ElementTree,type root,Element,type 2、操作 Element: tag,text,find,iter,get,s

Unity 遊戲框架搭建 2019 (三十二、三十三) 類的命名 & 程式碼檔案命名

昨天我們完成了第八個示例的第二個 MenuItem 選單順序的調整。我們今天再往下接著調整。我們來看下接下來的 MenuItem 程式碼如下: [MenuItem("QFramework/8.總結之前的方法/3.生成檔名到剪下板")] private static void MenuClicked

四十二、python學習之Django框架(二):類檢視與中介軟體

五、類檢視: 1.類檢視引入: 以函式的方式定義的檢視成為函式檢視,即我們常說的檢視函式. 但是, 檢視函式遭遇不同的請求方法(如get和post),並且需要做不同的處理時,我們如果在一個函式中編寫不同的業務邏輯,程式碼可讀性和複用性都不好. 例如:

javaSE (三十二）找出字串中重複的元素並寫入檔案、模擬正版軟體使用次數期限、獲取資料夾下的全部java檔案

1、找出字串中重複的元素並寫入檔案：問題：鍵入（或者從一個檔案中讀取）一個字串，找出字串中重複的元素並寫入檔案思路：鍵入字串 map儲存寫入檔案程式碼： package cn.njupt; /* * * 鍵入一串字元，計算每個字元出

Linux學習筆記（三十二）iptables filter表案例、 iptables nat表應用

iptables filter表案例、 iptables nat表應用一、iptables filter表案例需求：將80、20、21端口放行，對22端口指定特定的ip才放行以下為操作方法：vim /usr/local/sbin/iptables.sh //加入如下內容#! /bin/bas

《激蕩三十年》十二、中外合資——上海市長與上海大眾

差距第一個 fff 離開初步談判人在說了有趣在鄧小平南巡之後，中國經濟發展再度揚帆起航。但是，1993年的中國已經不再是一個傳統意義上的計劃經濟國家。在民間，私營經濟快速發展，“投機倒把”成為一個歷史名詞，鄉鎮經濟如火如荼，資本市場作為現代化市場經濟的必要組

三十九、python學習之Django框架(二):請求、URL路徑引數、查詢字串、請求體(表單，非表單)、請求頭

一、請求 1.flask中,利用HTTP協議想伺服器傳參的幾種途徑 1.1 提取URL的特定部分,可以在伺服器端的路由中用正則表示式擷取: 如:/weather/2018 //前端傳送請求: $.ajax({ url:'http://www.baidu.com/

二十九、scrapy構造併發送請求

1. 翻頁請求的思路對於要提取如下圖中所有頁面上的資料該怎麼辦？回顧requests模組是如何實現翻頁請求的：（1）找到下一頁的URL地址（2）呼叫requests.get(url)呼叫requests.get(url) scra

三十二、scrapy中介軟體的使用

1. scrapy中介軟體的分類和作用

1.1 scrapy中介軟體的分類

1.2 scrapy中間的作用：預處理request和response物件

2. 下載中介軟體的使用方法：

3. 定義實現隨機User-Agent的下載中介軟體

3.1 在middlewares.py中完善程式碼

3.2 在settings中設定開啟自定義的下載中介軟體，設定方法同管道

3.3 在settings中新增UA的列表

4. 代理ip的使用

4.1 思路分析

4.3 檢測代理ip是否可用

5. 在中介軟體中使用selenium

5.1 完成爬蟲程式碼

5.2 在middlewares.py中使用selenium

相關推薦