scrapy學習2 爬蟲中間件，下載器中間件之添加代理

阿新 • • 發佈：2018-05-18

page b- bytes etc internet HR line option sched

中間件

註意：這些中間件都放在middleware中

下載中間件

作用

技術分享圖片

實例：

代理被封，添加代理

方式一：內置添加代理功能

import os

技術分享圖片

    # -*- coding: utf-8 -*-
                import os
                import scrapy
                from scrapy.http import Request

                class ChoutiSpider(scrapy.Spider):
                    name = ‘chouti 
‘
                    allowed_domains = [‘chouti.com‘]
                    start_urls = [‘https://dig.chouti.com/‘]

                    def start_requests(self):
                        os.environ[‘HTTP_PROXY‘] = "http://192.168.11.11"

                        for url in self.start_urls:
                             
yield Request(url=url,callback=self.parse)

                    def parse(self, response):
                        print(response)

View Code

方法二：自定義中間件添加代理（有多個代理的時候，而且想要隨機循環的使用某個代理，防止被封）常用此方法，

技術分享圖片

然後再在middleware.py中添加上自定義的propxy類和一個方法

代碼如下：

                import random
                import base64
                 
import six
                def to_bytes(text, encoding=None, errors=‘strict‘):
                    """Return the binary representation of `text`. If `text`
                    is already a bytes object, return it as-is."""
                    if isinstance(text, bytes):
                        return text
                    if not isinstance(text, six.string_types):
                        raise TypeError(‘to_bytes must receive a unicode, str or bytes ‘
                                        ‘object, got %s‘ % type(text).__name__)
                    if encoding is None:
                        encoding = ‘utf-8‘
                    return text.encode(encoding, errors)
                    
                class MyProxyDownloaderMiddleware(object):
                    def process_request(self, request, spider):
                        proxy_list = [
                            {‘ip_port‘: ‘111.11.228.75:80‘, ‘user_pass‘: ‘xxx:123‘},
                            {‘ip_port‘: ‘120.198.243.22:80‘, ‘user_pass‘: ‘‘},
                            {‘ip_port‘: ‘111.8.60.9:8123‘, ‘user_pass‘: ‘‘},
                            {‘ip_port‘: ‘101.71.27.120:80‘, ‘user_pass‘: ‘‘},
                            {‘ip_port‘: ‘122.96.59.104:80‘, ‘user_pass‘: ‘‘},
                            {‘ip_port‘: ‘122.224.249.122:8088‘, ‘user_pass‘: ‘‘},
                        ]
                        proxy = random.choice(proxy_list)
                        if proxy[‘user_pass‘] is not None:
                            request.meta[‘proxy‘] = to_bytes("http://%s" % proxy[‘ip_port‘])
                            encoded_user_pass = base64.encodestring(to_bytes(proxy[‘user_pass‘]))
                            request.headers[‘Proxy-Authorization‘] = to_bytes(‘Basic ‘ + encoded_user_pass)
                        else:
                            request.meta[‘proxy‘] = to_bytes("http://%s" % proxy[‘ip_port‘])
    
    
    
                配置：
                    DOWNLOADER_MIDDLEWARES = {
                       # ‘xiaohan.middlewares.MyProxyDownloaderMiddleware‘: 543,
                    }

View Code

問題2

技術分享圖片

　如果被爬取的網站是自己花錢買的證書（此證書就是為了防止用戶發送的數據在中間環節被截獲，沒有證書相關的解密方式無法解析），可以直接正常爬取

　　如果是網站麽錢，自己寫的證書，發送爬取數據的時候，必須攜帶證書文件，才能爬取數據

　　　　方法：現在Middleware.py中寫入這些代碼，然後再在配置文件中寫上那兩行配置（代碼）

20. Https訪問
    Https訪問時有兩種情況：
    1. 要爬取網站使用的可信任證書(默認支持)
        DOWNLOADER_HTTPCLIENTFACTORY = "scrapy.core.downloader.webclient.ScrapyHTTPClientFactory"
        DOWNLOADER_CLIENTCONTEXTFACTORY = "scrapy.core.downloader.contextfactory.ScrapyClientContextFactory"
        
    2. 要爬取網站使用的自定義證書
        DOWNLOADER_HTTPCLIENTFACTORY = "scrapy.core.downloader.webclient.ScrapyHTTPClientFactory"
        DOWNLOADER_CLIENTCONTEXTFACTORY = "step8_king.https.MySSLFactory"
        
        # https.py
        from scrapy.core.downloader.contextfactory import ScrapyClientContextFactory
        from twisted.internet.ssl import (optionsForClientTLS, CertificateOptions, PrivateCertificate)
        
        class MySSLFactory(ScrapyClientContextFactory):
            def getCertificateOptions(self):
                from OpenSSL import crypto
                v1 = crypto.load_privatekey(crypto.FILETYPE_PEM, open(‘/Users/wupeiqi/client.key.unsecure‘, mode=‘r‘).read())
                v2 = crypto.load_certificate(crypto.FILETYPE_PEM, open(‘/Users/wupeiqi/client.pem‘, mode=‘r‘).read())
                return CertificateOptions(
                    privateKey=v1,  # pKey對象
                    certificate=v2,  # X509對象
                    verify=False,
                    method=getattr(self, ‘method‘, getattr(self, ‘_ssl_method‘, None))
                )
    其他：
        相關類
            scrapy.core.downloader.handlers.http.HttpDownloadHandler
            scrapy.core.downloader.webclient.ScrapyHTTPClientFactory
            scrapy.core.downloader.contextfactory.ScrapyClientContextFactory
        相關配置
            DOWNLOADER_HTTPCLIENTFACTORY
            DOWNLOADER_CLIENTCONTEXTFACTORY

"""

View Code

爬蟲中間件

技術分享圖片

這裏註意

技術分享圖片

代碼

middlewares.py
                class XiaohanSpiderMiddleware(object):
                    # Not all methods need to be defined. If a method is not defined,
                    # scrapy acts as if the spider middleware does not modify the
                    # passed objects.
                    def __init__(self):
                        pass
                    @classmethod
                    def from_crawler(cls, crawler):
                        # This method is used by Scrapy to create your spiders.
                        s = cls()
                        return s

                    # 每次下載完成之後，未執行parse函數之前。
                    def process_spider_input(self, response, spider):
                        # Called for each response that goes through the spider
                        # middleware and into the spider.

                        # Should return None or raise an exception.
                        print(‘process_spider_input‘,response)
                        return None

                    def process_spider_output(self, response, result, spider):
                        # Called with the results returned from the Spider, after
                        # it has processed the response.

                        # Must return an iterable of Request, dict or Item objects.
                        print(‘process_spider_output‘,response)
                        for i in result:
                            yield i

                    def process_spider_exception(self, response, exception, spider):
                        # Called when a spider or process_spider_input() method
                        # (from other spider middleware) raises an exception.

                        # Should return either None or an iterable of Response, dict
                        # or Item objects.
                        pass

                    # 爬蟲啟動時，第一次執行start_requests時，觸發。（只執行一次）
                    def process_start_requests(self, start_requests, spider):
                        # Called with the start requests of the spider, and works
                        # similarly to the process_spider_output() method, except
                        # that it doesn’t have a response associated.

                        # Must return only requests (not items).

                        print(‘process_start_requests‘)
                        for r in start_requests:
                            yield r

View Code

settings中的配置

SPIDER_MIDDLEWARES = {
               ‘xiaohan.middlewares.XiaohanSpiderMiddleware‘: 543,
            }

擴展信號

單純擴展：

無意義

extends.py 
                class MyExtension(object):
                    def __init__(self):
                        pass

                    @classmethod
                    def from_crawler(cls, crawler):
                        obj = cls()
                        return obj
            配置：
                EXTENSIONS = {
                    ‘xiaohan.extends.MyExtension‘:500,
                }

擴展+信號：

技術分享圖片

extends.py

from scrapy import signals


                class MyExtension(object):
                    def __init__(self):
                        pass

                    @classmethod
                    def from_crawler(cls, crawler):
                        obj = cls()
                        # 在爬蟲打開時，觸發spider_opened信號相關的所有函數：xxxxxxxxxxx
                        crawler.signals.connect(obj.xxxxxxxxxxx1, signal=signals.spider_opened)
                        # 在爬蟲關閉時，觸發spider_closed信號相關的所有函數：xxxxxxxxxxx
                        crawler.signals.connect(obj.uuuuuuuuuu, signal=signals.spider_closed)
                        return obj

                    def xxxxxxxxxxx1(self, spider):
                        print(‘open‘)

                    def uuuuuuuuuu(self, spider):
                        print(‘close‘)
        
                            return obj

配置：

EXTENSIONS = {
                ‘xiaohan.extends.MyExtension‘:500,
            }

7. 自定制命令

在spiders同級創建任意目錄，如：commands
在其中創建 crawlall.py 文件（此處文件名就是自定義的命令）

        from scrapy.commands import ScrapyCommand
        from scrapy.utils.project import get_project_settings


        class Command(ScrapyCommand):
            requires_project = True

            def syntax(self):
　　　　　　　　　　#支持的語法
                return ‘[options]‘

            def short_desc(self):
                return ‘Runs all of the spiders‘

            def run(self, args, opts):
                #獲取所有的爬蟲
                spider_list = self.crawler_process.spiders.list()
                for name in spider_list:
　　　　　　　　　　　　#craewler_process是執行爬蟲的入口，如self.crawler_process.crawl(‘chouti‘) 
                    self.crawler_process.crawl(name, **opts.__dict__)
                #讓爬蟲開始做操作
                self.crawler_process.start()

11.TinyScrapy

from twisted.web.client import getPage
from twisted.internet import reactor
from twisted.internet import defer

url_list = [‘http://www.bing.com‘, ‘http://www.baidu.com‘, ]


def callback(arg):
    print(‘回來一個‘, arg)


defer_list = []
for url in url_list:
    ret = getPage(bytes(url, encoding=‘utf8‘))
    ret.addCallback(callback)
    defer_list.append(ret)


def stop(arg):
    print(‘已經全部現在完畢‘, arg)
    reactor.stop()


d = defer.DeferredList(defer_list)
d.addBoth(stop)

reactor.run()

twisted示例一技術分享圖片

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from twisted.web.client import getPage
from twisted.internet import reactor
from twisted.internet import defer


@defer.inlineCallbacks
def task(url):
    ret = getPage(bytes(url, encoding=‘utf8‘))
    ret.addCallback(callback)
    yield ret


def callback(arg):
    print(‘回來一個‘, arg)


url_list = [‘http://www.bing.com‘, ‘http://www.baidu.com‘, ]
defer_list = []
for url in url_list:
    ret = task(url)
    defer_list.append(ret)


def stop(arg):
    print(‘已經全部現在完畢‘, arg)
    reactor.stop()


d = defer.DeferredList(defer_list)
d.addBoth(stop)
reactor.run()

twisted示例二技術分享圖片

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from twisted.internet import defer
from twisted.web.client import getPage
from twisted.internet import reactor
import threading


def _next_request():
    _next_request_from_scheduler()


def _next_request_from_scheduler():
    ret = getPage(bytes(‘http://www.chouti.com‘, encoding=‘utf8‘))
    ret.addCallback(callback)
    ret.addCallback(lambda _: reactor.callLater(0, _next_request))


_closewait = None

@defer.inlineCallbacks
def engine_start():
    global _closewait
    _closewait = defer.Deferred()
    yield _closewait


@defer.inlineCallbacks
def task(url):
    reactor.callLater(0, _next_request)
    yield engine_start()


counter = 0
def callback(arg):
    global counter
    counter +=1
    if counter == 10:
        _closewait.callback(None)
    print(‘one‘, len(arg))


def stop(arg):
    print(‘all done‘, arg)
    reactor.stop()


if __name__ == ‘__main__‘:
    url = ‘http://www.cnblogs.com‘

    defer_list = []
    deferObj = task(url)
    defer_list.append(deferObj)

    v = defer.DeferredList(defer_list)
    v.addBoth(stop)
    reactor.run()

twisted示例三

技術分享圖片

補充

技術分享圖片

如何創建第二個爬蟲

技術分享圖片

利用 scrapy- redis去重

原理就是把訪問過的額地址放到一個集合總，然後判斷時候訪問過

redis只是補充

技術分享圖片

源碼解析：

配置文件（要想使用就是修改這些內容）

技術分享圖片

代碼（老師筆記中）

如果想要自定義去重規則或者擴展

技術分享圖片

redis知識補充技術分享圖片

技術分享圖片

博客

技術分享圖片

自定義調度器

技術分享圖片

位置

技術分享圖片

調度器和去重規則的使用的三中情況：老師的代碼（筆記中）

技術分享圖片

scrapy學習2 爬蟲中間件，下載器中間件之添加代理

page b- bytes etc internet HR line option sched 中間件註意：這些中間件都放在middleware中下載中間件作用實例：代理被封，添加代理方式一：內置添加代理功能 import os #

【POI】導出excel文件，不生成中間文件，直接將內存中的數據創建對象下載到瀏覽器

src sheet xssf xls close creat 下載 position new 不是從InputStream中read，然後outputStream再write @RequestMapping("download4Excel") public v

PDI 學習2：KETTLE安裝，環境變量配置，開發準備

add san size 20px mil bin tools.jar 下載連接　　在這裏把環境變量的配置具體拿出來，有問題的同學自己比對一下： 1、安裝JDK，KETTLE 　　1) KETTLE拷貝程序包，綠色安裝；　　　　官方下載：http://communit

linux學習(八) XShell上傳、下載本地文件到linux服務器

下載工具 windows 通過命令保存文件技術 lin ram cal 安裝（一）通過命令行的方式 1.linux服務器端設置在linux主機上，安裝上傳下載工具包rz及sz; 如果不知道你要安裝包的具體名稱，可以使用yum provides */name 進行查

學習Python爬蟲第一步，Bs4庫

pri rom 示例上一個標簽 string 使用 gpo s參數首先是安裝BS4庫因為Python的pip真的很方便，所以一般不出意外，只需要一個pip就足以完成一個庫的安裝。 pip install beautifulsoup4 名字很長不要記錯名字呦。想要利

jenkins 插件，下載地址

display -c jsb 技術分享 upd 需要 fontsize spl avi http://updates.jenkins-ci.org/download/plugins/ 通常我們需要下載的插件有如下幾個： jenkins 插件，下載地址

javaUtil---匯出資料到word表格中後，下載word文件

為滿足將對應資料插入到word表格中並匯出word模板，下載word模板。 utils的 controller裡的方法： 1.利用ResponseEntity 實體進行檔案匯出，以解決匯出檔名稱自定，防止亂碼的效果。因為 ResponseEntity

Scrapy基礎————圖片下載後將本地路徑添加到Item中

ica cal 行處理 pipe 思路 completed div self 狀態前邊講到簡單的圖片下載，但是怎樣將圖片的本地路徑和存儲在Item中的數據對應起來，所以本篇博文講解到如何將本地的下載後的圖片路徑寫入到Item中思路：自定義pipli

springMvc接受單個文件，多個文件，多組文件

files ont orm art form style 是否 cnblogs pre web端 <form id="iconForm" enctype="multipart/form-data"></form> JS：通過ajaxSubmit提

asp.net NPOI導出xlsx格式文件，打開文件報“Excel 已完成文件級驗證和修復。此工作簿的某些部分可能已被修復或丟棄”

tpc com filesize instance ons 讀取 div 技術 i++ NPOI導出xlsx格式文件，會出現如下情況：點擊“是”：導出代碼如下： /// <summary> /// 將datatable數據寫

python 檢索一個目錄下所有的txt文件，並把文件改為.log

fin str pos pytho oca 結果 ram -1 users 檢索一個目錄及子目錄下所有的txt文件，並把txt文件後綴改為log： import os f_path = r‘C:\Users\PycharmProjects\mystudy\Testfold

Vi之打開文件，新建文件，保存文件

linux vi編輯器打開文件、新建文件、保存文件vi 文件名如果文件存在，輸入結束後，:wq保存並退出文件如果文件不存在，輸入結束後，:wq就可以新建並保存文件在編輯完成時，返回一般模式，1）輸入:w則保存文件；如果已保存，輸入:q則退出文件2）輸入:wq保存並退出3）如果不想保存被修改的內容，則

HDFS設計思路，HDFS使用，查看集群狀態，HDFS，HDFS上傳文件，HDFS下載文件，yarn web管理界面信息查看，運行一個mapreduce程序，mapreduce的demo

b2c 數據系統 set 打包 value map mode format drive 26 集群使用初步 HDFS的設計思路 l 設計思想分而治之：將大文件、大批量文件，分布式存放在大量服務器上，以便於采取分而治之的方式對海量數據進行運算分析； l 在大數據系

關於Tab切換中嵌套Swiper移動端滑動插件，導致Swiper插件失效的問題

解決 ima true 屬性 tab切換解決辦法 observe 嵌套 bubuko Swiper插件大家都知道的，手機端頁面開發過程中，輪播用這個插件灰常方便的！關鍵是調用簡單，大大的提高了開發的效率；但是在Tab切換中調用，Swiper插件就會出問題，失效了，布局結

Git 修改最後一次提交，刪除文件，重命名文件

工作刪除 comm clas 恢復文件 git rm 忘記 body 1、修改最後一次提交當忘記提交某個文件可以使用 git commit amend -m "新的提交說明" 暫存區的內容會提交到git倉庫而不產生新的快照 2、刪除文件手動刪除工作區的文件後

python基礎：匹配指定目錄下符合規則的文件，打印文件全路徑

python# -*- coding:utf-8 -*- #遍歷目錄樹 import os,fnmatch def all_files(root, patterns=‘*‘, single_level=False, yield_folder=False): # 將模式從字符串中取出放入列表中

SetProcessWorkingSetSize() 方法使內存降低了很多（把內存放到交換區，其實會降低性能）——打開後長時間不使用軟件，會有很長時間的加載過程，原來是這個！

相關 opera UNC 情況下縮小 ole careful however guarantee 在項目中對程序性能優化時，發現用SetProcessWorkingSetSize() 方法使內存降低了很多，於是查閱了相關的資料如下：我的程序為什麽能夠將占用的內存

vue項目引入第三方js插件，單個js文件引入成功，使用該插件方法時報錯

question play 文件引入 clas ons 不定 AS npm安裝 col 1、引入第三方js文件，npm安裝不了 2、控制臺顯示引入成功 3、在methods下使用圖片看不清請看下面代碼 updateTime() { set

MAVEN插件-tomcat插件，java編譯插件，資源文件拷貝插件

encoding AS artifact ID 資源 mave fig true con <plugins>  <plugin> <groupId>org.apache.

tar壓縮文件，排除指定文件不壓縮

tar 壓縮排除指定文件 --exclude 一般直接用tar命令打包很簡單，直接使用 tar -zcvf test.tar.gz test 即可。在很多時候，我們要對某一個目錄打包，而這個目錄下有幾十個子目錄和子文件，我們需要在打包的時候排除其中1、2個目錄或文件。這時候我們在用tar命令

scrapy學習2 爬蟲中間件，下載器中間件之添加代理

中間件

下載中間件

實例：

代理被封，添加代理

問題2

爬蟲中間件

擴展 信號

單純擴展：

擴展+信號：

利用 scrapy- redis去重

如果想要自定義去重規則 或者擴展

自定義調度器

相關推薦

擴展信號

如果想要自定義去重規則或者擴展