Scrapy爬蟲之settings.py配置檔案詳解
# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the documentation: # # http://doc.scrapy.org/en/latest/topics/settings.html # http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html # http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html BOT_NAME = 'demo1' #Scrapy專案的名字,這將用來構造預設 User-Agent,同時也用來log,當您使用 startproject 命令建立專案時其也被自動賦值。 SPIDER_MODULES = ['demo1.spiders'] #Scrapy搜尋spider的模組列表 預設: [xxx.spiders] NEWSPIDER_MODULE = 'demo1.spiders' #使用 genspider 命令建立新spider的模組。預設: 'xxx.spiders' #爬取的預設User-Agent,除非被覆蓋 #USER_AGENT = 'demo1 (+http://www.yourdomain.com)' #如果啟用,Scrapy將會採用 robots.txt策略 ROBOTSTXT_OBEY = True #Scrapy downloader 併發請求(concurrent requests)的最大值,預設: 16 #CONCURRENT_REQUESTS = 32 #為同一網站的請求配置延遲(預設值:0) # See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay # See also autothrottle settings and docs #DOWNLOAD_DELAY = 3 下載器在下載同一個網站下一個頁面前需要等待的時間,該選項可以用來限制爬取速度,減輕伺服器壓力。同時也支援小數:0.25 以秒為單位 #下載延遲設定只有一個有效 #CONCURRENT_REQUESTS_PER_DOMAIN = 16 對單個網站進行併發請求的最大值。 #CONCURRENT_REQUESTS_PER_IP = 16 對單個IP進行併發請求的最大值。如果非0,則忽略 CONCURRENT_REQUESTS_PER_DOMAIN 設定,使用該設定。 也就是說,併發限制將針對IP,而不是網站。該設定也影響 DOWNLOAD_DELAY: 如果 CONCURRENT_REQUESTS_PER_IP 非0,下載延遲應用在IP而不是網站上。 #禁用Cookie(預設情況下啟用) #COOKIES_ENABLED = False #禁用Telnet控制檯(預設啟用) #TELNETCONSOLE_ENABLED = False #覆蓋預設請求標頭: #DEFAULT_REQUEST_HEADERS = { # 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', # 'Accept-Language': 'en', #} #啟用或禁用蜘蛛中介軟體 # See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html #SPIDER_MIDDLEWARES = { # 'demo1.middlewares.Demo1SpiderMiddleware': 543, #} #啟用或禁用下載器中介軟體 # See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html #DOWNLOADER_MIDDLEWARES = { # 'demo1.middlewares.MyCustomDownloaderMiddleware': 543, #} #啟用或禁用擴充套件程式 # See http://scrapy.readthedocs.org/en/latest/topics/extensions.html #EXTENSIONS = { # 'scrapy.extensions.telnet.TelnetConsole': None, #} #配置專案管道 # See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html #ITEM_PIPELINES = { # 'demo1.pipelines.Demo1Pipeline': 300, #} #啟用和配置AutoThrottle擴充套件(預設情況下禁用) # See http://doc.scrapy.org/en/latest/topics/autothrottle.html #AUTOTHROTTLE_ENABLED = True #初始下載延遲 #AUTOTHROTTLE_START_DELAY = 5 #在高延遲的情況下設定的最大下載延遲 #AUTOTHROTTLE_MAX_DELAY = 60 #Scrapy請求的平均數量應該並行傳送每個遠端伺服器 #AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0 #啟用顯示所收到的每個響應的調節統計資訊: #AUTOTHROTTLE_DEBUG = False #啟用和配置HTTP快取(預設情況下禁用) # See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings #HTTPCACHE_ENABLED = True #HTTPCACHE_EXPIRATION_SECS = 0 #HTTPCACHE_DIR = 'httpcache' #HTTPCACHE_IGNORE_HTTP_CODES = [] #HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
參考資料:
相關推薦
Scrapy爬蟲之settings.py配置檔案詳解
# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered impor
maven的settings.xml配置檔案詳解
一、Settings.xml基本資訊 Settings.xml是maven全域性引數的配置檔案,其中包含本地倉儲位置、遠端倉儲伺服器、認證資訊等等。 settings.xml檔案一般存在於兩個位置: 全域性配置(global settings): maven安裝目錄/conf/settings
Maven之setting.xml配置檔案詳解
setting.xml配置檔案 maven的配置檔案settings.xml存在於兩個地方: 1.安裝的地方:${M2_HOME}/conf/settings.xml 2.使用者的目錄:${user.home}/.m2/settings.xml 前者又被叫做全域性配置,對作
Android之androidmainfest.xml配置檔案詳解
寫配置檔案的時候我們會不知道把那些配置項放在哪裡,請看: 配置檔案樣例: <?xml version="1.0" encoding="utf-8"?> <manifest> <!-- 基本配置 --> <uses-permission
maven安裝和eclipse整合以及Maven之setting.xml配置檔案詳解
由於maven需要JDK的支援,所以在安裝maven之前請確保電腦上已經安裝了JDK,且配置好了環境變數,具體的JDK的安裝及配置可自行百度。下面進入安裝 一、maven安裝 前面已經下載了相應版本的maven,且已經配置好JDK的環境; 1
【Maven使用者手冊】Maven之setting.xml配置檔案詳解
setting.xml配置檔案 maven的配置檔案settings.xml存在於兩個地方: 1.安裝的地方:${M2_HOME}/conf/settings.xml 2.使用者的目錄:${user.home}/.m2/settings.xml 前者又被叫做全域性配置
Asp.Net 之 Web.config 配置檔案詳解
[2]在這個資料夾下還有一個web.config檔案,這個檔案包含了asp.net網站的常用配置。下面是這個web.config檔案的內容: <?xml version="1.0" encoding="utf-8"?><!-- the root web configuration fi
【Maven使用者手冊】Maven之pom.xml配置檔案詳解
歡迎關注公眾號: ----------------------------------------------正文---------------------------------------------------- setting.xml主要用於配置m
scrapy settings配置檔案詳解
# -*- coding: utf-8 -*- # Scrapy settings for step8_king project # # For simplicity, this file contains only settings considered important or # comm
Java程式設計師從笨鳥到菜鳥之(五十三)細談Hibernate(四)Hibernate常用配置檔案詳解
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!  
Nginx實戰之1.1-1.6 Nginx介紹,安裝及配置檔案詳解
1.1 Nginx介紹 HTTP協議發展簡史 加粗 https://coding.net/u/aminglinux/p/nginx/git/blob/master/http/version.md 1991年釋出0.9版,只有GET方法,僅支援html,一個連線一個請求 &n
Maven之pom.xml與setting.xml配置檔案詳解
一.pom.xml詳解 1.概述 pom中節點如下分佈 <project xmlns="http://maven.apache.org/
【SpringBoot學習之路】08.Springboot配置檔案詳解(四)
轉載宣告:商業轉載請聯絡作者獲得授權,非商業轉載請註明出處.原文來自 © 呆萌鍾【SpringBoot學習之路】08.Springboot配置檔案詳解(四) 自動配置原理 配置檔案到底能寫什麼?怎麼寫?自動配置原理; 配置檔案能配置的屬性參照
【SpringBoot學習之路】07.Springboot配置檔案詳解(三)
轉載宣告:商業轉載請聯絡作者獲得授權,非商業轉載請註明出處.原文來自 © 呆萌鍾 【SpringBoot學習之路】07.Springboot配置檔案詳解(三) Profile多環境支援 Profile是Spring對不同環境提供不同配置功能的支援,可以通
【SpringBoot學習之路】06.Springboot配置檔案詳解(二)
轉載宣告:商業轉載請聯絡作者獲得授權,非商業轉載請註明出處.原文來自 © 呆萌鍾 【SpringBoot學習之路】06.Springboot配置檔案詳解(二) 配置檔案值注入 @Value獲取值和@ConfigurationProperties獲取值比較
【SpringBoot學習之路】05.Springboot配置檔案詳解(一)
轉載宣告:商業轉載請聯絡作者獲得授權,非商業轉載請註明出處.原文來自 © 呆萌鍾【SpringBoot學習之路】05.Springboot配置檔案詳解(一) 配置檔案 Spring Boot使用一個全域性的配置檔案 applic
【YOLO學習筆記】之YOLO配置檔案詳解
在YOLO初體驗中,應用到了一個字尾名為cfg的檔案,在darknet中有一個資料夾,下面有各種各樣的cfg檔案 這些cfg檔案都是YOLO的配置檔案,負責YOLO所需資料集的訓練工作,接下來,給大家詳細講解一下配置檔案。講解配置檔案,我以 yolov2-tiny.
SpringBoot-配置檔案詳解之自定義配置檔案
今天我們一起來學習一下如何自定義配置檔案,在這之前我們可能會把配置項寫在application.properties或者application.yml中。這是springboot預設讀取的配置檔案,但是
SpringBoot-配置檔案詳解之多個配置檔案
在現實的開發環境中,我們需要不同的配置環境。比如開發環境用於開發,測試環境用於測試,預生產環境用於釋出測試。那麼對於多個環境的配置檔案,其檔案格式為:application-{profile}.properties,其中{profile}對應我們的環境標識。比如我們這裡定義了
kafka配置檔案詳解之:server.properties
#每一個broker在叢集中的唯一表示,要求是正數。當該伺服器的IP地址發生改變時,broker.id沒有變化,則不會影響consumers的訊息情況broker.id=0#broker server服務埠 port =9092#處理網路請求的執行緒數量num