1. 程式人生 > >Scrapy——5 下載中介軟體常用函式、scrapy怎麼對接selenium、常用的Setting內建設定有哪些

Scrapy——5 下載中介軟體常用函式、scrapy怎麼對接selenium、常用的Setting內建設定有哪些

Scrapy——5

 

  1. 下載中介軟體常用的函式
  2. Scrapy怎樣對接selenium
  3. 常用的setting內建設定

 

(Downloader Middleware)下載中介軟體常用函式有哪些

 Scrapy怎樣對接Selenium

設定setting.py裡的DOWNLOADER_MIDDLIEWARES,新增自己編寫的下載中介軟體類

 

 常用的Setting內建設定有哪些

詳情可以參考https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#concurrent-items

  • CONCURRENT_REQUESTS

  • 預設: 16
  • Scrapy downloader 併發請求(concurrent requests)的最大值。

 

  • CONCURRENT_ITEMS

  • 預設: 100
  • Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。

 

  • DOWNLOAD_TIMEOUT

  • 預設: 180
  • 下載器超時時間(單位: 秒)。

 

  • DOWNLOAD_DELAY

  • 預設: 0
  • 下載器在下載同一個網站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕伺服器壓力。同時也支援小數:
    DOWNLOAD_DELAY = 0.25    # 250 ms of delay
 
  • 該設定影響(預設啟用的) RANDOMIZE_DOWNLOAD_DELAY 設定。 預設情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個隨機值 * DOWNLOAD_DELAY 的結果作為等待間隔。
  • 當 CONCURRENT_REQUESTS_PER_IP
     非0時,延遲針對的是每個ip而不是網站。
  • 另外您可以通過spider的 download_delay 屬性為每個spider設定該設定。

 

  • LOG_ENCODING

  • 預設: 'utf-8'
  • logging使用的編碼。

 

  • ITEM_PIPELINES

  • 預設: {}
  • 儲存專案中啟用的pipeline及其順序的字典。該字典預設為空,值(value)任意。 不過值(value)習慣設定在0-1000範圍內。

 

  • COOKIES_ENABLED

  • 預設: True
  • 是否啟用cookies middleware。如果關閉,cookies將不會發送給web server。