1. 程式人生 > >提升Scrapy框架爬取數據效率的五種方式

提升Scrapy框架爬取數據效率的五種方式

增加 快速 少量數據 設置 coo ror 超時時間 產生 取數

1、增加並發線程開啟數量

  settings配置文件中,修改CONCURRENT_REQUESTS = 100,默認為32,可適當增加;

2、降低日誌級別

  運行scrapy時會產生大量日誌占用CPU,為減少CPU使用率,可修改log輸出級別

  settings配置文件中LOG_LEVEL=‘ERROR‘ 或 LOG_LEVEL = ‘INFO‘ ;

3、禁止cookie

  scrapy默認自動保存cookie,占用CPU,如果不是真的需要cookie,可設置為不保存cookie,以減少CPU使用率,

  settings配置文件中:COOKIES_ENABLED = False 解開註釋

4、禁止請求重試:

  對於失敗的請求會重新發送,則會減慢爬取速度,因此可以在對丟失少量數據也不影響時,禁止重試,

  settings配置文件中加:RETRY_ENABLED = False ;

5、減少下載超時:

  如果對一個非常慢的鏈接進行爬取,減少下載超時可以讓卡住的鏈接快速被放棄,從而提升效率,

  在settings配置文件中進行編寫:DOWNLOAD_TIMEOUT = 10 設置超時時間;

提升Scrapy框架爬取數據效率的五種方式