1. 程式人生 > >Scrapy爬蟲之settings.py配置檔案詳解

Scrapy爬蟲之settings.py配置檔案詳解

# -*- coding: utf-8 -*-  
  
# Scrapy settings for demo1 project  
#  
# For simplicity, this file contains only settings considered important or  
# commonly used. You can find more settings consulting the documentation:  
#  
#     http://doc.scrapy.org/en/latest/topics/settings.html  
#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html  
#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html  
  
BOT_NAME = 'demo1'   #Scrapy專案的名字,這將用來構造預設 User-Agent,同時也用來log,當您使用 startproject 命令建立專案時其也被自動賦值。  
  
SPIDER_MODULES = ['demo1.spiders']   #Scrapy搜尋spider的模組列表 預設: [xxx.spiders]  
NEWSPIDER_MODULE = 'demo1.spiders'   #使用 genspider 命令建立新spider的模組。預設: 'xxx.spiders'  
  
  
#爬取的預設User-Agent,除非被覆蓋  
#USER_AGENT = 'demo1 (+http://www.yourdomain.com)'  
  
#如果啟用,Scrapy將會採用 robots.txt策略  
ROBOTSTXT_OBEY = True  
  
#Scrapy downloader 併發請求(concurrent requests)的最大值,預設: 16  
#CONCURRENT_REQUESTS = 32  
  
#為同一網站的請求配置延遲(預設值:0)  
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay  
# See also autothrottle settings and docs    
#DOWNLOAD_DELAY = 3   下載器在下載同一個網站下一個頁面前需要等待的時間,該選項可以用來限制爬取速度,減輕伺服器壓力。同時也支援小數:0.25 以秒為單位  
  
      
#下載延遲設定只有一個有效  
#CONCURRENT_REQUESTS_PER_DOMAIN = 16   對單個網站進行併發請求的最大值。  
#CONCURRENT_REQUESTS_PER_IP = 16       對單個IP進行併發請求的最大值。如果非0,則忽略 CONCURRENT_REQUESTS_PER_DOMAIN 設定,使用該設定。 也就是說,併發限制將針對IP,而不是網站。該設定也影響 DOWNLOAD_DELAY: 如果 CONCURRENT_REQUESTS_PER_IP 非0,下載延遲應用在IP而不是網站上。  
  
#禁用Cookie(預設情況下啟用)  
#COOKIES_ENABLED = False  
  
#禁用Telnet控制檯(預設啟用)  
#TELNETCONSOLE_ENABLED = False   
  
#覆蓋預設請求標頭:  
#DEFAULT_REQUEST_HEADERS = {  
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',  
#   'Accept-Language': 'en',  
#}  
  
#啟用或禁用蜘蛛中介軟體  
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html  
#SPIDER_MIDDLEWARES = {  
#    'demo1.middlewares.Demo1SpiderMiddleware': 543,  
#}  
  
#啟用或禁用下載器中介軟體  
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html  
#DOWNLOADER_MIDDLEWARES = {  
#    'demo1.middlewares.MyCustomDownloaderMiddleware': 543,  
#}  
  
#啟用或禁用擴充套件程式  
# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html  
#EXTENSIONS = {  
#    'scrapy.extensions.telnet.TelnetConsole': None,  
#}  
  
#配置專案管道  
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html  
#ITEM_PIPELINES = {  
#    'demo1.pipelines.Demo1Pipeline': 300,  
#}  
  
#啟用和配置AutoThrottle擴充套件(預設情況下禁用)  
# See http://doc.scrapy.org/en/latest/topics/autothrottle.html  
#AUTOTHROTTLE_ENABLED = True  
  
#初始下載延遲  
#AUTOTHROTTLE_START_DELAY = 5  
  
#在高延遲的情況下設定的最大下載延遲  
#AUTOTHROTTLE_MAX_DELAY = 60  
  
  
#Scrapy請求的平均數量應該並行傳送每個遠端伺服器  
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0  
  
#啟用顯示所收到的每個響應的調節統計資訊:  
#AUTOTHROTTLE_DEBUG = False  
  
#啟用和配置HTTP快取(預設情況下禁用)  
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings  
#HTTPCACHE_ENABLED = True  
#HTTPCACHE_EXPIRATION_SECS = 0  
#HTTPCACHE_DIR = 'httpcache'  
#HTTPCACHE_IGNORE_HTTP_CODES = []  
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'  

參考資料:

相關推薦

Scrapy爬蟲settings.py配置檔案

# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered impor

maven的settings.xml配置檔案

一、Settings.xml基本資訊 Settings.xml是maven全域性引數的配置檔案,其中包含本地倉儲位置、遠端倉儲伺服器、認證資訊等等。 settings.xml檔案一般存在於兩個位置: 全域性配置(global settings): maven安裝目錄/conf/settings

Mavensetting.xml配置檔案

setting.xml配置檔案 maven的配置檔案settings.xml存在於兩個地方: 1.安裝的地方:${M2_HOME}/conf/settings.xml 2.使用者的目錄:${user.home}/.m2/settings.xml 前者又被叫做全域性配置,對作

Androidandroidmainfest.xml配置檔案

寫配置檔案的時候我們會不知道把那些配置項放在哪裡,請看: 配置檔案樣例: <?xml version="1.0" encoding="utf-8"?> <manifest> <!-- 基本配置 --> <uses-permission

maven安裝和eclipse整合以及Mavensetting.xml配置檔案

由於maven需要JDK的支援,所以在安裝maven之前請確保電腦上已經安裝了JDK,且配置好了環境變數,具體的JDK的安裝及配置可自行百度。下面進入安裝 一、maven安裝 前面已經下載了相應版本的maven,且已經配置好JDK的環境;     1

【Maven使用者手冊】Mavensetting.xml配置檔案

setting.xml配置檔案 maven的配置檔案settings.xml存在於兩個地方: 1.安裝的地方:${M2_HOME}/conf/settings.xml 2.使用者的目錄:${user.home}/.m2/settings.xml 前者又被叫做全域性配置

Asp.Net Web.config 配置檔案

[2]在這個資料夾下還有一個web.config檔案,這個檔案包含了asp.net網站的常用配置。下面是這個web.config檔案的內容: <?xml version="1.0" encoding="utf-8"?><!-- the root web configuration fi

【Maven使用者手冊】Mavenpom.xml配置檔案

歡迎關注公眾號: ----------------------------------------------正文---------------------------------------------------- setting.xml主要用於配置m

scrapy settings配置檔案

# -*- coding: utf-8 -*- # Scrapy settings for step8_king project # # For simplicity, this file contains only settings considered important or # comm

Java程式設計師從笨鳥到菜鳥(五十三)細談Hibernate(四)Hibernate常用配置檔案

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

Nginx實戰1.1-1.6 Nginx介紹,安裝及配置檔案

1.1 Nginx介紹 HTTP協議發展簡史 加粗  https://coding.net/u/aminglinux/p/nginx/git/blob/master/http/version.md  1991年釋出0.9版,只有GET方法,僅支援html,一個連線一個請求 &n

Mavenpom.xml與setting.xml配置檔案

一.pom.xml詳解     1.概述     pom中節點如下分佈 <project xmlns="http://maven.apache.org/

【SpringBoot學習路】08.Springboot配置檔案(四)

轉載宣告:商業轉載請聯絡作者獲得授權,非商業轉載請註明出處.原文來自 © 呆萌鍾【SpringBoot學習之路】08.Springboot配置檔案詳解(四)  自動配置原理 配置檔案到底能寫什麼?怎麼寫?自動配置原理; 配置檔案能配置的屬性參照

【SpringBoot學習路】07.Springboot配置檔案(三)

轉載宣告:商業轉載請聯絡作者獲得授權,非商業轉載請註明出處.原文來自 © 呆萌鍾 【SpringBoot學習之路】07.Springboot配置檔案詳解(三) Profile多環境支援 Profile是Spring對不同環境提供不同配置功能的支援,可以通

【SpringBoot學習路】06.Springboot配置檔案(二)

轉載宣告:商業轉載請聯絡作者獲得授權,非商業轉載請註明出處.原文來自 © 呆萌鍾 【SpringBoot學習之路】06.Springboot配置檔案詳解(二) 配置檔案值注入 @Value獲取值和@ConfigurationProperties獲取值比較

【SpringBoot學習路】05.Springboot配置檔案(一)

轉載宣告:商業轉載請聯絡作者獲得授權,非商業轉載請註明出處.原文來自 © 呆萌鍾【SpringBoot學習之路】05.Springboot配置檔案詳解(一)  配置檔案 Spring Boot使用一個全域性的配置檔案 applic

【YOLO學習筆記】YOLO配置檔案

在YOLO初體驗中,應用到了一個字尾名為cfg的檔案,在darknet中有一個資料夾,下面有各種各樣的cfg檔案 這些cfg檔案都是YOLO的配置檔案,負責YOLO所需資料集的訓練工作,接下來,給大家詳細講解一下配置檔案。講解配置檔案,我以 yolov2-tiny.

SpringBoot-配置檔案自定義配置檔案

今天我們一起來學習一下如何自定義配置檔案,在這之前我們可能會把配置項寫在application.properties或者application.yml中。這是springboot預設讀取的配置檔案,但是

SpringBoot-配置檔案多個配置檔案

在現實的開發環境中,我們需要不同的配置環境。比如開發環境用於開發,測試環境用於測試,預生產環境用於釋出測試。那麼對於多個環境的配置檔案,其檔案格式為:application-{profile}.properties,其中{profile}對應我們的環境標識。比如我們這裡定義了

kafka配置檔案:server.properties

#每一個broker在叢集中的唯一表示,要求是正數。當該伺服器的IP地址發生改變時,broker.id沒有變化,則不會影響consumers的訊息情況broker.id=0#broker server服務埠 port =9092#處理網路請求的執行緒數量num