Scrapy框架中setting 中的欄位含義

阿新 • • 發佈：2018-12-12

一、setting 自動生成的內容含義

# -*- coding: utf-8 -*-

# Scrapy settings for taoCarTest project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html 

#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'taoCarTest'

SPIDER_MODULES = ['taoCarTest.spiders']
NEWSPIDER_MODULE = 'taoCarTest.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent 

#USER_AGENT = 'taoCarTest (+http://www.yourdomain.com)'

# Obey robots.txt rules

'''如果啟用，Scrapy將會尊重 robots.txt策略'''
ROBOTSTXT_OBEY = False

'''Scrapy downloader 併發請求(concurrent requests)的最大值'''
# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0) 

# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs


'''
下載器在下載同一個網站下一個頁面前需要等待的時間。
該選項可以用來限制爬取速度， 減輕伺服器壓力。同時也支援小數:
該設定影響(預設啟用的) RANDOMIZE_DOWNLOAD_DELAY 設定。 預設情況下，Scrapy在兩個請求間不等待一個固定的值，
而是使用0.5到1.5之間的一個隨機值 * DOWNLOAD_DELAY 的結果作為等待間隔。
當 CONCURRENT_REQUESTS_PER_IP 非0時，延遲針對的是每個ip而不是網站。
另外您可以通過spider的 download_delay 屬性為每個spider設定該設定。
'''
#DOWNLOAD_DELAY = 3

# The download delay setting will honor only one of:

'''對單個網站進行併發請求的最大值'''
#CONCURRENT_REQUESTS_PER_DOMAIN = 16

'''
對單個IP進行併發請求的最大值。如果非0，則忽略 CONCURRENT_REQUESTS_PER_DOMAIN 設定，
使用該設定。 也就是說，併發限制將針對IP，而不是網站。
該設定也影響 DOWNLOAD_DELAY: 如果 CONCURRENT_REQUESTS_PER_IP 非0，
下載延遲應用在IP而不是網站上。
'''
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
'''是否啟用cookies middleware.如果關閉，cookies 將不會發送給web server'''
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
'''表明 telnet 終端（及其外掛）是否啟用布林值'''
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
'''Scrapy HTTP Request使用的預設header.由DefaultHeadersMiddleware 產生。這裡通常可以自己新增的更完整'''
DEFAULT_REQUEST_HEADERS = {
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  # 'Accept-Language': 'en',
}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
'''要啟用spider中介軟體，可以將其加入到SPIDER_MIDDLEWARES 設定中。
該是指是一個字典，鍵為中介軟體的路徑，值為中介軟體的順序（order）。如上就是開啟'''
#SPIDER_MIDDLEWARES = {
#    'taoCarTest.middlewares.TaocartestSpiderMiddleware': 543,
#}

'''儲存專案中啟用的下載中介軟體及其順序的字典。更多內容請檢視 啟用下載器中介軟體
DOWNLOAER_MIDDLEWARES 設定會與Scrapy定義的 DOWNLOADER_MIDDLEWARES_BASE 設定合併（但不是覆蓋），而後根據順序（order）進行排序
最後得到啟用中介軟體的有序列表：第一個中介軟體是最靠近引擎的，最後一箇中間鍵是最靠近下載器的。
關於如何分配中介軟體的順序請檢視 DOWNLOADER_MIDDLEWARES_BASE 設定，
而後根據您想要放置中介軟體的位置選擇一個值。
由於每個中介軟體執行不同的動作，您的中介軟體可能會依賴於之前(或者之後)執行的中介軟體，
因此順序是很重要的'''
# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'taoCarTest.middlewares.TaocartestDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# 這裡如果一個專案多個spiders的時候，每次執行的時候每次要在這裡制定一個對應的pipeline
'''
儲存專案中啟用的pipeline及其順序的字典。該字典預設為空，值(value)任意。 不過值(value)習慣設定在0-1000範圍內。
為了相容性，ITEM_PIPELINES 支援列表，不過已經被廢棄了。
'''
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'taoCarTest.pipelines.TaocartestPipeline': 300,
}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
''' 啟用自動限速下載 AutoThrottle 擴充套件'''
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
'''初始延遲下載（單位/秒）'''
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
'''初始延遲下載（單位/秒）'''
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
'''啟用AUTOThrottle除錯(debug)模式，展示每個接收到的response。 可以通過此來檢視限速引數是如何實時被調整的'''
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
'''HTTP快取是否開啟。'''
#HTTPCACHE_ENABLED = True

'''快取的request的超時時間，單位秒。
超過這個時間的快取request將會被重新下載。如果為0，則快取的request將永遠不會超時。'''
#HTTPCACHE_EXPIRATION_SECS = 0

'''儲存(底層的)HTTP快取的目錄。如果為空，則HTTP快取將會被關閉。 如果為相對目錄，則相對於專案資料目錄(project data dir)。
更多內容請參考 預設的Scrapy專案結構 。'''
#HTTPCACHE_DIR = 'httpcache'

'''不快取設定中的HTTP返回值(code)的request。'''
#HTTPCACHE_IGNORE_HTTP_CODES = []
'''實現快取儲存後端的類。'''
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

二、setting中預設沒有，但可以新增的內容含義

#一下內容為預設setting.py檔案沒有的欄位，但是可以自己新增

CONCURRENT_ITEMS
'''
預設: 100
Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。
'''

DEFAULT_ITEM_CLASS
'''預設: 'scrapy.item.Item'
the Scrapy shell 中例項化item使用的預設類'''


DEPTH_LIMIT
'''預設: 0
爬取網站最大允許的深度(depth)值。如果為0，則沒有限制'''
DEPTH_PRIORITY
'''預設: 0
整數值。用於根據深度調整request優先順序。
如果為0，則不根據深度進行優先順序調整'''
DEPTH_STATS
'''
預設: True
是否收集最大深度資料。'''
DEPTH_STATS_VERBOSE
'''預設: False
是否收集詳細的深度資料。如果啟用，每個深度的請求數將會被收集在資料中。'''

DOWNLOAD_HANDLERS
'''
預設: {}
儲存專案中啟用的下載處理器(request downloader handler)的字典。 例子請檢視 DOWNLOAD_HANDLERS_BASE 。
DOWNLOAD_HANDLERS_BASE
預設:
{
    'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
    'http': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler',
    'https': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler',
    's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
}
儲存專案中預設啟用的下載處理器(request downloader handler)的字典。 永遠不要在專案中修改該設定，而是修改 DOWNLOADER_HANDLERS 。
如果需要關閉上面的下載處理器，您必須在專案中的 DOWNLOAD_HANDLERS 設定中設定該處理器，併為其賦值為 None 。 例如，關閉檔案下載處理器:
DOWNLOAD_HANDLERS = {
    'file': None,
}'''
DOWNLOAD_TIMEOUT
'''
預設: 180
下載器超時時間(單位: 秒)。'''

LOG
'''
LOG_ENABLED
預設: True
是否啟用logging。
LOG_ENCODING
預設: 'utf-8'
logging使用的編碼。
LOG_FILE
預設: None
logging輸出的檔名。如果為None，則使用標準錯誤輸出(standard error)。
LOG_LEVEL
預設: 'DEBUG'
log的最低級別。可選的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG。更多內容請檢視 Logging 。
LOG_STDOUT
預設: False
如果為 True ，程序所有的標準輸出(及錯誤)將會被重定向到log中。例如， 執行 print 'hello' ，其將會在Scrapy log中顯示。'''

RANDOMIZE_DOWNLOAD_DELAY
'''
預設: True
如果啟用，當從相同的網站獲取資料時，Scrapy將會等待一個隨機的值 (0.5到1.5之間的一個隨機值 * DOWNLOAD_DELAY)。
該隨機值降低了crawler被檢測到(接著被block)的機會。某些網站會分析請求， 查詢請求之間時間的相似性。
隨機的策略與 wget --random-wait 選項的策略相同。
若 DOWNLOAD_DELAY 為0(預設值)，該選項將不起作用
'''

Scrapy框架中setting 中的欄位含義

一、setting 自動生成的內容含義 # -*- coding: utf-8 -*- # Scrapy settings for taoCarTest project # # For simplicity, this file contains only settings consi

將selenium集成到scrapy框架中

有一個 turn object get signals con span ren super() 一首先想到的是將selenium 寫在下載中間件的process_request中。如以下代碼。　　middleware.py from selenium impo

Scrapy框架中的Pipeline組件

object OS @class ror inter setting ima utf8 encoding 簡介在下圖中可以看到items.py與pipeline.py，其中items是用來定義抓取內容的實體；pipeline則是用來處理抓取的item的管道 Item管道

Python爬蟲從入門到放棄之 Scrapy框架中Download Middleware用法

sta 頻繁 space raw 處理們的 img ear 法則這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送requests請求的時候以及網頁將response結果返回給spiders的時候，所以從

Python爬蟲從入門到成妖之7-----Scrapy框架中Download Middleware用法

例子 start col res urn 鉤子 exception 安裝打印這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送 requests請求的時候以及網頁將 response結果返回給 spiders

scrapy框架中在middleware中進行配置user-agent，將user-agent進行隨機

在scrapy中進行user-agent配置，將其進行隨機更換。下面所寫為學習筆記使用scrapy進行爬蟲的時候，一些針對爬蟲設定了一些反爬措施，最明顯的是user-agent。一、在setting檔案中ctrl+f找到 DOWNLOADER_MIDDLEWARES，將其註釋的部分

爬蟲Scrapy框架的setting.py檔案詳解

# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only setting

scrapy框架中Crawlspider模組原始碼剖析

一、前言 1、scrapy從Terminal中通過genspider命令建立一個蜘蛛，其中包含四個模組，分別為spider，crawlspider，csvfeedspider和xmlfeedspider，其中spider(basic模組)和crawlspider最為常用。 2、做過web

scrapy框架中Spider原始碼解析

scrapy框架中Spider原始碼解析一、scrapy架構在講解spider類之前，我們先來了解下scrapy這個框架的整體架構請看下面scrapy工作流程圖 1.scrapy引擎(Scrapy Engine) 引擎負責控制資料流在系統中所有元件中流動，並在相應動作

scrapy框架中cookie的設定路徑

總的來說，scrapy框架中設定cookie有三種方式。第一種：setting中設定cookie 當COOKIES_ENABLED是註釋的時候scrapy預設沒有開啟cookie 當COOKIES_ENABLED沒有註釋設定為False的時候scrapy預設使用了se

Scrapy框架中的 UA偽裝

例如：百度輸入ip檢視是自己本機的ip，通過UA偽裝成其他機器的ip, 爬蟲程式碼： 1 import scrapy 2 3 4 class UatestSpider(scrapy.Spider): 5 name = 'UATest' 6 # allo

細談Scrapy框架中運用selenium的經驗

首先我是個技術小白，工作的經驗也不到一年的時間，但是卻在這一年的時間裡讓我深深體會到了面對問題時對解決的問題的感悟。話不多說，總結一句話就是：這是我的第一篇技術部落格，希望大家在閱讀的同時能給予一些建議，共同學習進步。我們平時寫爬蟲的程式碼就是想著構造

Scrapy框架中解決OSError=[Errno 2] No such file or directory: 'Xvfb': 'Xvfb'

當在scrapy框架的Middlewares.py中匯入以下語句後報錯 from pyvirtualdisplay import Display display = Display(visible=0, size=(800, 600)) display.start() 報錯如下：

scrapy框架中多個spider同時執行：scrapyd的部署及使用

scrapy是一個爬蟲框架，而scrapyd是一個網頁版管理scrapy的工具，scrapy爬蟲寫好後，可以使用命令執行，但是如果能夠在網頁上操作就比較方便。scrapyd就是為了解決這個問題，能夠在網頁端檢視正在執行的任務，也能新建和終止爬蟲任務，功能比較強大。 Scrapyd使用詳解

scrapy框架中選擇器的使用

Selector選擇器Scrapy框架提供了自己的資料解析方法，即Selector（選擇器）。1、Selector（選擇器）是基於lxml來構建的，支援XPath、CSS選擇器以及正則表示式，功能全面，解析速度和準確度非常高。2、Selector（選擇器）是一個可以獨立使用模

scrapy框架中實現登入人人網（二）（最新登入方式）

上篇部落格說到登入人人網的時候，如果同一個賬號出錯超過三次，那麼將會出現四個漢字的驗證碼，這裡我們利用打碼平臺來破解驗證碼並傳入（實際上，如果簡單點可以通過肉眼觀察出現的驗證碼，然後input輸入結果。）如下圖所示，通過上節的分析我們知道密碼是通過加密傳

scrapy框架中實現登入人人網（一）（最新登入方式）

最近在弄scrapy框架的問題，感覺裡面好玩的東西有很多，無意中在bilibili中看到關於在scrapy實現登入人人網的視訊，人人網可能使用者少，所以在現在的一些部落格和教程裡面看到最新的登入方法幾乎沒有，於是自己寫了這篇部落格。 &

18、python網路爬蟲之Scrapy框架中的CrawlSpider詳解

正則 art _id 糗事百科 put pytho 切換 ron 提交 CrawlSpider的引入：　　　　提問：如果想要通過爬蟲程序去爬取”糗百“全站數據新聞數據的話，有幾種實現方法？　　方法一：基於Scrapy框架中的Spider的遞歸爬取進行實現（Reque

python爬蟲之Scrapy框架中的Item Pipeline用法

RoCE 執行 ise inf 優先執行 sin .com 如果 ica 當Item在Spider中被收集之後, 就會被傳遞到Item Pipeline中進行處理. 每個item pipeline組件是實現了簡單的方法的python類, 負責接收到item並通過它執行一些

Python爬蟲從入門到放棄（十五）之 Scrapy框架中Spiders用法

ide 字典初始化需要工作流程 www. 默認 apple 一個原文地址https://www.cnblogs.com/zhaof/p/7192503.html Spider類定義了如何爬去某個網站，包括爬取的動作以及如何從網頁內容中提取結構化的數據，總的來說spi

Scrapy框架中setting 中的欄位含義

相關推薦