scrapy中的選擇器下載中間價downloadmiddlewares

阿新 • • 發佈：2019-01-01

for ppr 所有 middle art sticky 通用而是 delay

下載中間件

下載器中間件是介於Scrapy的request/response處理的鉤子框架。是用於全局修改Scrapy request和response的一個輕量、底層的系統。

1.激活下載中間件

要激活下載器中間件組件，將其加入到 DOWNLOADER_MIDDLEWARES 設置中。該設置是一個字典(dict)，鍵為中間件類的路徑，值為其中間件的順序(order)。

eg：

DOWNLOADER_MIDDLEWARES = {

‘myproject.middlewares.CustomDownloaderMiddleware‘: 543,

}

在幾個設置中都可以進行設置。

DOWNLOADER_MIDDLEWARES 設置會與Scrapy定義的

DOWNLOADER_MIDDLEWARES_BASE 設置合並(但不是覆蓋)，而後根據順序(order)進行排序，最後得到啟用中間件的有序列表: 第一個中間件是最靠近引擎的，最後一個中間件是最靠近下載器的。

2.下載件執行順序

下載件在中有兩個方法，

process_request(self,request,spider)用於處理請求的方法，此時請求由引擎發往下載器。

process_response(self,reuqest,response,spider)用於處理響應的方法，此時響應由下載器發往引擎。

order越小，距離downloader越遠，process_request越先被執行，process_response越後被執行。

prcess_request1

prcess_request2

downloader

process_response2

process_response1

按照這個順序來執行。

3.禁止內置中間件

如果您想禁止內置的(在 DOWNLOADER_MIDDLEWARES_BASE 中設置並默認啟用的)中間件，您必須在項目的 DOWNLOADER_MIDDLEWARES 設置中定義該中間件，並將其值賦為 None 。例如，如果您想要關閉user-agent中間件:

DOWNLOADER_MIDDLEWARES = {

‘myproject.middlewares.CustomDownloaderMiddleware‘: 543,

‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware‘: None,

}

4.編寫中間件

中間件一般都寫在middlewares.py文件中，繼承object類。

每個中間件組件須定義以下方法中至少一個：

process_request(request, spider)

當每個request通過下載中間件時，該方法被調用。

返回值：

process_request() 必須返回其中之一: 返回 None 、返回一個 Response 對象、返回一個 Request 對象或raise IgnoreRequest 。

返回 None ：Scrapy將繼續處理該request，執行其他的中間件的相應方法，直到合適的下載器處理函數(download handler)被調用，該request被執行(其response被下載)。

返回 Response 對象：Scrapy將不會調用任何其他的 process_request() 或 process_exception() 方法，或相應地下載函數；其將返回該response。已安裝的中間件的 process_response() 方法則會在每個response返回時被調用。

返回 Request 對象：Scrapy則停止調用 process_request方法並重新調度返回的request。當新返回的request被執行後，相應地中間件鏈將會根據下載的response被調用。相當於返回一個新的request，還是再從第一個中間件開始執行。因此，這個返回的request需要加判斷語句，什麽時候需要返回，不然的話，請求就無法發送到下載器。

raise一個 IgnoreRequest 異常：安裝的下載中間件的 process_exception() 方法會被調用。如果沒有任何一個方法處理該異常，則request的errback(Request.errback)方法會被調用。如果沒有代碼處理拋出的異常，則該異常被忽略且不記錄(不同於其他異常那樣)。

參數

request：需要被處理的請求

spider (Spider 對象) ：該request對應的spider對象實例。

process_response(request, response, spider)

當響應通過該中間件時，此方法被調用。

返回值

process_request() 必須返回以下之一: 返回一個 Response 對象、返回一個 Request 對象或raise一個 IgnoreRequest 異常。

返回 Response ：(可以與傳入的response相同，也可以是全新的對象，可以通過scrapy.http.Response生成)，該response會被在鏈中的其他中間件的 process_response() 方法處理。

返回 Request 對象：中間件鏈停止，返回的request會被重新調度下載。處理類似於 process_request() 返回request所做的那樣。所得到的響應也被丟棄，重新執行新的request。

拋出 IgnoreRequest 異常：則調用request的errback(Request.errback)。如果沒有代碼處理拋出的異常，則該異常被忽略且不記錄(不同於其他異常那樣)。

參數

request (Request 對象) – response所對應的request

response (Response 對象) – 被處理的response

spider (Spider 對象) – response所對應的spide

process_exception(request, exception, spider)

當下載處理器(download handler)或 process_request() (下載中間件)拋出異常(包括 IgnoreRequest 異常)時， Scrapy調用 process_exception() 。

返回值：

process_exception() 應該返回以下之一: 返回 None 、一個 Response 對象、或者一個 Request 對象。

返回 None ：Scrapy將會繼續處理該異常，接著調用已安裝的其他中間件的process_exception() 方法，直到所有中間件都被調用完畢，則調用默認的異常處理。

返回Response 對象：則已安裝的中間件鏈的 process_response() 方法被調用。Scrapy將不會調用任何其他中間件的 process_exception() 方法。

返回 Request 對象： 則返回的request將會被重新調用下載。這將停止中間件的process_exception() 方法執行，就如返回一個response的那樣。

參數

request (是 Request 對象) – 產生異常的request

exception (Exception 對象) – 拋出的異常

spider (Spider 對象) – request對應的spider

5.內置下載中間件

1.默認啟用的下載中間件及禁止：

DOWNLOADER_MIDDLEWARES_BASE

默認:

    ‘scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware‘: 100,

    ‘scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware‘: 300,

    ‘scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware‘: 350,

    ‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware‘: 400,

    ‘scrapy.downloadermiddlewares.retry.RetryMiddleware‘: 500,

    ‘scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware‘: 550,

    ‘scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware‘: 580,

    ‘scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware‘: 590,

    ‘scrapy.downloadermiddlewares.redirect.RedirectMiddleware‘: 600,

    ‘scrapy.downloadermiddlewares.cookies.CookiesMiddleware‘: 700,

    ‘scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware‘: 750,

    ‘scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware‘: 830,

    ‘scrapy.downloadermiddlewares.stats.DownloaderStats‘: 850,

    ‘scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware‘: 900,

包含Scrapy默認啟用的下載中間件的字典。永遠不要在項目中修改該設定，而是修改DOWNLOADER_MIDDLEWARES 。在DOWNLOADER_MIDDLEWARES中對想要禁止的中間件的order賦值為None。

2. CookiesMiddleware

classscrapy.downloadermiddlewares.cookies.CookiesMiddleware

該中間件使得爬取需要cookie(例如使用session)的網站成為了可能。其追蹤了web server發送的cookie，並在之後的request中發送回去，就如瀏覽器所做的那樣。scrapy爬蟲不用關心cookies，就是因為此中間件。

設置

以下設置可以用來配置cookie中間件:

COOKIES_ENABLED

COOKIES_DEBUG

1. 單spider多cookie session

Scrapy通過使用 cookiejar Request meta key來支持單spider追蹤多cookie session。默認情況下其使用一個cookiejar(是session)，不過您可以傳遞一個標示符來使用多個。

eg：

for i, url in enumerate(urls):

yield scrapy.Request("http://www.example.com", meta={‘cookiejar‘: i},

callback=self.parse_page)

需要註意的是 cookiejar meta key不是”黏性的(sticky)”。您需要在之後的request請求中接著傳遞。例如:

def parse_page(self, response):

# do some processing

return scrapy.Request("http://www.example.com/otherpage",

meta={‘cookiejar‘: response.meta[‘cookiejar‘]},

callback=self.parse_other_page)

2. COOKIES_ENABLED

默認: True

是否啟用cookies middleware。如果關閉，cookies將不會發送給web server。

3. COOKIES_DEBUG

默認: False

如果啟用，Scrapy將記錄所有在request(Cookie 請求頭)發送的cookies及response接收到的cookies(Set-Cookie 接收頭)。

2011-04-06 14:35:10-0300 [scrapy] INFO: Spider opened

2011-04-06 14:35:10-0300 [scrapy] DEBUG: Sending cookies to: <GET http://www.diningcity.com/netherlands/index.html>

Cookie: clientlanguage_nl=en_EN

2011-04-06 14:35:14-0300 [scrapy] DEBUG: Received cookies from: <200 http://www.diningcity.com/netherlands/index.html>

Set-Cookie: JSESSIONID=B~FA4DC0C496C8762AE4F1A620EAB34F38; Path=/

Set-Cookie: ip_isocode=US

Set-Cookie: clientlanguage_nl=en_EN; Expires=Thu, 07-Apr-2011 21:21:34 GMT; Path=/

2011-04-06 14:49:50-0300 [scrapy] DEBUG: Crawled (200) <GET http://www.diningcity.com/netherlands/index.html> (referer: None)

[...]

3. DefaultHeadersMiddleware

該中間件設置 DEFAULT_REQUEST_HEADERS 指定的默認request header。

4. DownloadTimeoutMiddleware

該中間件設置 DOWNLOAD_TIMEOUT 指定的request下載超時時間.

5. HttpAuthMiddleware

該中間件完成某些使用 Basic access authentication (或者叫HTTP認證)的spider生成的請求的認證過程。

在spider中啟用HTTP認證，請設置spider的 http_user 及 http_pass 屬性。

eg:

from scrapy.spiders import CrawlSpider

class SomeIntranetSiteSpider(CrawlSpider):

http_user = ‘someuser‘

http_pass = ‘somepass‘

name = ‘intranet.example.com‘

# .. rest of the spider code omitted ...

6. HttpCacheMiddleware

該中間件為所有HTTP request及response提供了底層(low-level)緩存支持。其由cache存儲後端及cache策略組成。

https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/downloader-middleware.html#scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware

7.HttpCompressionMiddleware

該中間件提供了對壓縮(gzip, deflate)數據的支持。

設置

COMPRESSION_ENABLED

默認: True

Compression Middleware(壓縮中間件)是否開啟。

8. ChunkedTransferMiddleware

該中間件添加了對 chunked transfer encoding 的支持。

9. HttpProxyMiddleware

該中間件提供了對request設置HTTP代理的支持。您可以通過在 Request 對象中設置 proxy 元數據來開啟代理。

使用request.meta[‘proxy’]來設置。

request.meta[‘proxy’]=’https//……..’

類似於Python標準庫模塊 urllib 及 urllib2 ，其使用了下列環境變量:

http_proxy

https_proxy

no_proxy

您也可以針對每個請求設置 proxy 元數據, 其形式類似於 http://some_proxy_server:port.

10. RedirectMiddleware

該中間件根據response的狀態處理重定向的request。

通過該中間件的(被重定向的)request的url可以通過 Request.meta 的 redirect_urls 鍵找到。

RedirectMiddleware 可以通過下列設置進行配置(更多內容請參考設置文檔):

REDIRECT_ENABLED

REDIRECT_MAX_TIMES

如果 Request.meta 包含 dont_redirect 鍵，則該request將會被此中間件忽略。

設置

REDIRECT_ENABLED

0.13 新版功能.

默認: True

是否啟用Redirect中間件。

REDIRECT_MAX_TIMES

默認: 20

單個request被重定向的最大次數。

11. MetaRefreshMiddleware

該中間件根據meta-refresh html標簽處理request重定向。

MetaRefreshMiddleware 可以通過以下設定進行配置 (更多內容請參考設置文檔)。

設置

METAREFRESH_ENABLED

METAREFRESH_MAXDELAY

該中間件遵循 RedirectMiddleware 描述的 REDIRECT_MAX_TIMES 設定，dont_redirect 及 redirect_urlsmeta key。

METAREFRESH_ENABLED

默認: True

Meta Refresh中間件是否啟用。

REDIRECT_MAX_METAREFRESH_DELAY

默認: 100

跟進重定向的最大 meta-refresh 延遲(單位:秒)。

12. RetryMiddleware

該中間件將重試可能由於臨時的問題，例如連接超時或者HTTP 500錯誤導致失敗的頁面。

爬取進程會收集失敗的頁面並在最後，spider爬取完所有正常(不失敗)的頁面後重新調度。一旦沒有更多需要重試的失敗頁面，該中間件將會發送一個信號(retry_complete)，其他插件可以監聽該信號。

RetryMiddleware 可以通過下列設定進行配置 (更多內容請參考設置文檔):

RETRY_ENABLED

RETRY_TIMES

RETRY_HTTP_CODES

關於HTTP錯誤的考慮:

如果根據HTTP協議，您可能想要在設定 RETRY_HTTP_CODES 中移除400錯誤。該錯誤被默認包括是由於這個代碼經常被用來指示服務器過載(overload)了。而在這種情況下，我們想進行重試。

如果 Request.meta 包含 dont_retry 鍵，該request將會被本中間件忽略。

設置

RETRY_ENABLED

默認: True

Retry Middleware是否啟用。

RETRY_TIMES

默認: 2

包括第一次下載，最多的重試次數

RETRY_HTTP_CODES

默認: [500, 502, 503, 504, 400, 408]

重試的response 返回值(code)。其他錯誤(DNS查找問題、連接失敗及其他)則一定會進行重試。

13.RobotsTxtMiddleware

該中間件過濾所有robots.txt eclusion standard中禁止的request。

確認該中間件及 ROBOTSTXT_OBEY 設置被啟用以確保Scrapy尊重robots.txt。

警告

記住, 如果您在一個網站中使用了多個並發請求， Scrapy仍然可能下載一些被禁止的頁面。這是由於這些頁面是在robots.txt被下載前被請求的。這是當前robots.txt中間件已知的限制，並將在未來進行修復。

14. DownloaderStats

保存所有通過的request、response及exception的中間件。

您必須啟用 DOWNLOADER_STATS 來啟用該中間件。

15. UserAgentMiddleware

用於覆蓋spider的默認user agent的中間件。

要使得spider能覆蓋默認的user agent，其 user_agent 屬性必須被設置。

class RandomUserAgent(UserAgentMiddleware):
def process_request(self, request, spider):
#從列表中隨機抽選出一個ua值
ua = random.choice(user_agent_list)
#ua值進行當前攔截到請求的ua的寫入操作
request.headers.setdefault(‘User-Agent‘,ua)

通過中間件設置ua池。

16.AjaxCrawlMiddleware

根據meta-fragment html標簽查找 ‘AJAX可爬取’ 頁面的中間件。查看https://developers.google.com/webmasters/ajax-crawling/docs/getting-started 來獲得更多內容。

即使沒有啟用該中間件，Scrapy仍能查找類似於 ‘http://example.com/!#foo=bar‘ 這樣的’AJAX可爬取’頁面。 AjaxCrawlMiddleware是針對不具有 ‘!#‘ 的URL，通常發生在’index’或者’main’頁面中。

設置

AJAXCRAWL_ENABLED

默認: False

AjaxCrawlMiddleware是否啟用。您可能需要針對通用爬蟲啟用該中間件。

scrapy中的選擇器下載中間價downloadmiddlewares

for ppr 所有 middle art sticky 通用而是 delay 下載中間件下載器中間件是介於Scrapy的request/response處理的鉤子框架。是用於全局修改Scrapy request和response的一個輕量、底層的系統。 1.激活下載

scrapy中的選擇器下載中間價downloadmiddlewares

下載中間件

1.激活下載中間件

2.下載件執行順序

3.禁止內置中間件

4.編寫中間件

process_request(request, spider)

process_response(request, response, spider)

process_exception(request, exception, spider)

5.內置下載中間件

1.默認啟用的下載中間件及禁止：

2. CookiesMiddleware

設置

1. 單spider多cookie session

2. COOKIES_ENABLED

3. COOKIES_DEBUG

3. DefaultHeadersMiddleware

4. DownloadTimeoutMiddleware

5. HttpAuthMiddleware

6. HttpCacheMiddleware

7.HttpCompressionMiddleware

設置

8. ChunkedTransferMiddleware

9. HttpProxyMiddleware

10. RedirectMiddleware

設置

11. MetaRefreshMiddleware

設置

12. RetryMiddleware

設置

13.RobotsTxtMiddleware

14. DownloaderStats

15. UserAgentMiddleware

16.AjaxCrawlMiddleware

設置

AJAXCRAWL_ENABLED

相關推薦