Scrapy——5 下載中介軟體常用函式、scrapy怎麼對接selenium、常用的Setting內建設定有哪些
阿新 • • 發佈:2018-11-12
Scrapy——5
(Downloader Middleware)下載中介軟體常用函式有哪些
設定setting.py裡的DOWNLOADER_MIDDLIEWARES,新增自己編寫的下載中介軟體類
詳情可以參考https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#concurrent-items
-
CONCURRENT_REQUESTS
- 預設:
16
- Scrapy downloader 併發請求(concurrent requests)的最大值。
-
CONCURRENT_ITEMS
- 預設:
100
- Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。
-
DOWNLOAD_TIMEOUT
- 預設:
180
- 下載器超時時間(單位: 秒)。
-
DOWNLOAD_DELAY
- 預設:
0
- 下載器在下載同一個網站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕伺服器壓力。同時也支援小數:
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
- 該設定影響(預設啟用的)
RANDOMIZE_DOWNLOAD_DELAY
設定。 預設情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個隨機值 *DOWNLOAD_DELAY
的結果作為等待間隔。 - 當
CONCURRENT_REQUESTS_PER_IP
非0時,延遲針對的是每個ip而不是網站。 - 另外您可以通過spider的
download_delay
屬性為每個spider設定該設定。
-
LOG_ENCODING
- 預設:
'utf-8'
- logging使用的編碼。
-
ITEM_PIPELINES
- 預設:
{}
- 儲存專案中啟用的pipeline及其順序的字典。該字典預設為空,值(value)任意。 不過值(value)習慣設定在0-1000範圍內。
-
COOKIES_ENABLED
- 預設:
True
- 是否啟用cookies middleware。如果關閉,cookies將不會發送給web server。