Scrapy-Redis redis_key連結跑完後，自動關閉爬蟲

阿新 • • 發佈：2018-12-03

問題：

scrapy-redis框架中，reids儲存的xxx:requests已經爬取完畢，但程式仍然一直執行，如何自動停止程式，結束空跑。

相信大家都很頭疼，尤其是網上一堆搬來搬去的帖子，來看一下我是如何解決這個問題的吧

課外瞭解

分散式擴充套件：

我們知道 scrapy 預設是單機執行的，那麼scrapy-redis是如何把它變成可以多臺機器協作的呢？

首先解決爬蟲等待，不被關閉的問題：

1、scrapy內部的訊號系統會在爬蟲耗盡內部佇列中的request時，就會觸發spider_idle訊號。

2、爬蟲的訊號管理器收到spider_idle訊號後，將呼叫註冊spider_idle訊號的處理器

進行處理。

3、當該訊號的所有處理器(handler)被呼叫後，如果spider仍然保持空閒狀態，引擎將會關閉該spider。

scrapy-redis 中的解決方案在訊號管理器上註冊一個對應在spider_idle訊號下的spider_idle()方法，當spider_idle觸發是，訊號管理器就會呼叫這個爬蟲中的spider_idle()， Scrapy_redis 原始碼如下：

    def spider_idle(self):
        """Schedules a request if available, otherwise waits."""
        # XXX: Handle a sentinel to close the spider.
        self.schedule_next_requests()    # 這裡呼叫schedule_next_requests() 來從redis中生成新的請求
        raise DontCloseSpider              # 丟擲不要關閉爬蟲的DontCloseSpider異常，保證爬蟲活著

解決思路：

通過前面的瞭解，我們知道爬蟲關閉的關鍵是 spider_idle 訊號。
spider_idle訊號只有在爬蟲佇列為空時才會被觸發，觸發間隔為5s。
那麼我們也可以使用同樣的方式，在訊號管理器上註冊一個對應在spider_idle訊號下的spider_idle()方法。
在 spider_idle() 方法中，編寫結束條件來結束爬蟲，這裡以判斷redis 中關鍵key 是否為空，為條件

解決方案：

redis_key 為空後一段時間關閉爬蟲

redis_key 為空後一段時間關閉爬蟲的實現方案：

這裡在 Scrapy 中的 exensions（擴充套件）中實現，當然你也可以在pipelines（管道）中實現。

擴充套件框架提供一個機制，使得你能將自定義功能繫結到Scrapy。擴充套件只是正常的類，它們在Scrapy啟動時被例項化、初始化。關於擴充套件詳細見： scrapy 擴充套件(Extensions)

在settings.py 檔案的目錄下，建立一個名為 extensions.py 的檔案，
在其中寫入以下程式碼

# -*- coding: utf-8 -*-
# Define here the models for your scraped Extensions
import logging
import time
from scrapy import signals
from scrapy.exceptions import NotConfigured
logger = logging.getLogger(__name__)


class RedisSpiderSmartIdleClosedExensions(object):

    def __init__(self, idle_number, crawler):
        self.crawler = crawler
        self.idle_number = idle_number
        self.idle_list = []
        self.idle_count = 0

    @classmethod
    def from_crawler(cls, crawler):
        # 首先檢查是否應該啟用和提高擴充套件
        # 否則不配置
        if not crawler.settings.getbool('MYEXT_ENABLED'):
            raise NotConfigured

        # 獲取配置中的時間片個數，預設為360個，30分鐘
        idle_number = crawler.settings.getint('IDLE_NUMBER', 360)

        # 例項化擴充套件物件
        ext = cls(idle_number, crawler)

        # 將擴充套件物件連線到訊號， 將signals.spider_idle 與 spider_idle() 方法關聯起來。
        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(ext.spider_idle, signal=signals.spider_idle)

        # return the extension object
        return ext

    def spider_opened(self, spider):
        logger.info("opened spider %s redis spider Idle, Continuous idle limit： %d", spider.name, self.idle_number)

    def spider_closed(self, spider):
        logger.info("closed spider %s, idle count %d , Continuous idle count %d",
                    spider.name, self.idle_count, len(self.idle_list))

    def spider_idle(self, spider):
        self.idle_count += 1                        # 空閒計數
        self.idle_list.append(time.time())       # 每次觸發 spider_idle時，記錄下觸發時間戳
        idle_list_len = len(self.idle_list)         # 獲取當前已經連續觸發的次數

        # 判斷 當前觸發時間與上次觸發時間 之間的間隔是否大於5秒，如果大於5秒，說明redis 中還有key 
        if idle_list_len > 2 and self.idle_list[-1] - self.idle_list[-2] > 6:
            self.idle_list = [self.idle_list[-1]]

        elif idle_list_len > self.idle_number:
            # 連續觸發的次數達到配置次數後關閉爬蟲
            logger.info('\n continued idle number exceed {} Times'
                        '\n meet the idle shutdown conditions, will close the reptile operation'
                        '\n idle start time: {},  close spider time: {}'.format(self.idle_number,
                                                                              self.idle_list[0], self.idle_list[0]))
            # 執行關閉爬蟲操作
            self.crawler.engine.close_spider(spider, 'closespider_pagecount')

在settings.py 中新增以下配置，請將 lianjia_ershoufang 替換為你的專案目錄名。

MYEXT_ENABLED=True      # 開啟擴充套件
IDLE_NUMBER=360           # 配置空閒持續時間單位為 360個 ，一個時間單位為5s

# 在 EXTENSIONS 配置，啟用擴充套件
'EXTENSIONS'= {
            'lianjia_ershoufang.extensions.RedisSpiderSmartIdleClosedExensions': 500,
        },

完成空閒關閉擴充套件，爬蟲會在持續空閒 360個時間單位後關閉爬蟲

配置說明：

MYEXT_ENABLED: 是否啟用擴充套件，啟用擴充套件為 True， 不啟用為 False
IDLE_NUMBER: 關閉爬蟲的持續空閒次數，持續空閒次數超過IDLE_NUMBER，爬蟲會被關閉。預設為 360 ，也就是30分鐘，一分鐘12個時間單位

結語

此方法只使用於 5秒內跑不完一組連結的情況，如果你的一組連結5秒就能跑完，你可以在此基礎上做一些判斷。原理一樣，大家可以照葫蘆畫瓢。

哈哈，我的方式是不是特別棒呀！

Scrapy-Redis redis_key連結跑完後，自動關閉爬蟲

問題： scrapy-redis框架中，reids儲存的xxx:requests已經爬取完畢，但程式仍然一直執行，如何自動停止程式，結束空跑。相信大家都很頭疼，尤其是網上一堆搬來搬去的帖子，來看一下我是如何解決這個問題的吧課外瞭解分散式擴充套件：

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？

scrapy-redis所有request爬取完畢，如何解決爬蟲空跑問題？ 1. 背景根據scrapy-redis分散式爬蟲的原理，多臺爬蟲主機共享一個爬取佇列。當爬取佇列中存在request時，爬蟲就會取出request進行爬取，如果爬取佇列中不存在request時，爬蟲就會處於等待狀

vs2015開啟後，自動關閉解決方案

安裝好vs2015想試一下，誰知道開啟之後，又自動退出，不知道是什麼問題,系統是win10，vs2015安裝是沒有問題的，在網上試了很多辦法，最後看到一片文章說可能是沒有許可權的問題，最後，點選vs2015圖片，管理員執行，順利開啟，完全沒有問題了。

解決 Scrapy-Redis 空跑問題，鏈接跑完後自動關閉爬蟲

blank 發的內部 ide @class otc sta lis 停止 Scrapy-Redis 空跑問題，redis_key鏈接跑完後，自動關閉爬蟲問題：scrapy-redis框架中，reids存儲的xxx:requests已經爬取完畢，但程序仍然一直運行，如何自

Redis Cluster集群搭建後，客戶端的連接研究（Spring/Jedis）（待實踐）

turn ron 記錄 redis div println 刪除 clu name 說明：無論是否已經搭建好集群，還是使用什麽樣的客戶端去連接，都是必須把全部IP列表集成進去，然後隨機往其中一個IP寫。這樣做的好處： 1、隨機IP寫入之後，Redis Cluster代

VMware安裝完後，沒有虛擬網卡

解決方案 eve 電腦 eba bsp net 連接不上清理 adapter 1　問題描述： 1.1　　windows10首次安裝VMware，或者非首次安裝VMware時，安裝後，沒有出現如下圖所示的虛擬網卡： 1.2　　Xshell或者SecureCRT 或者edi

【Robotframework】腳本跑完後自動發送郵件

nec span main odin receive ase enc .text mem #!/usr/bin/python # -*- coding: UTF-8 -*- import smtplib from email.mime.text import MIMET

90%的程式設計師看完後，工資翻翻！

1.web前端全套連結：連結：https://pan.baidu.com/s/16K9bdHmXf4EEWBtsSH9r5A 密碼：mb4q 2. nginx視訊教程視訊教程連結: https://pan.baidu.com/s/1nxc

ssl證書安裝完後，https訪問後下載index檔案，HTTP訪問正常的。Nginx ssl設定後自動下載根目錄的index.php而不是載入

給Nginx安裝ssl證書，https訪問後，重新自動下載index.php檔案。一開始的Nginx的配置檔案如下： #user nobody; worker_processes 1; #error_log logs/error.log; #error_log logs/error.

appium 連結真機後，執行程式碼，但是APP並沒有啟動

要淡定，連結真機後，問題一下多出來這麼多，還沒有啟動程式，就碰到接二連三的問題。爽到家了。慢慢解決吧。具體問題是這樣的： # coding=utf-8from appium import webdriverimport timefrom selenium.common.exceptions impo

scrapy-redis爬取豆瓣電影短評，使用詞雲wordcloud展示

1、資料是使用scrapy-redis爬取的，存放在redis裡面，爬取的是最近大熱電影《海王》 2、使用了jieba中文分詞解析庫 3、使用了停用詞stopwords，過濾掉一些無意義的詞 4、使用matplotlib+wordcloud繪圖展示 from redis import Redis impor

解決jdk環境變數設定完後，在cmd中執行javac出現’javac‘不是內部或外部命令，也不是可執行的程式或批處理檔案的錯誤提示

我的jdk'和jre都安裝在java_jdk這個資料夾下，如上圖所示。在環境變數中的path和classpath的引數配置如下：變數名：JAVA_HOME 變數值：F:\java_jdk\jdk1.8 變數名：Path 變數值：

Oracle裝完後，計算機名改了，監聽程式無法啟動！

istenner.ora如下：---------------------------------------------------------------SID_LIST_LISTENER = (SID_LIST = (SID_DESC = (SID_NAME = PLSExtProc) (ORAC

搜尋完後，讓搜尋後的關鍵字高亮顯示

繫結的時候,比如你的資料來源是datatableif(keyword.Text != "" && keyword.Text != null ){for(int iloop =0 ;iloop < dstemp.Tables[0].Rows.Count ;

未明學院：被騰訊群面虐完後，我找到了未來的方向…

作者 | Z學長，未明學院商業資料分析訓練營7月班學員，目前已經拿到香港中文大學商業分析研究生offer，以及港大等多個學校面試offer 我的背景：華東某985 工商管理專業 BA大四申請者這篇文章我將以工商管理本科生的視角，來分享我與Busines

quartz在job間隔期間內，保證上一個任務執行完後，再去執行下一個任務

假設，我們有個job，每2分鐘執行一次，但是job本身就要執行5分鐘，這個時候，quartz預設設定是併發的，所以它又會開一個執行緒來執行。這樣往往會導致我們執行的資料不正確。解決辦法： 1、要是是和spring框架結合的，可以新增如下配置： <

oracle資料庫客戶端安裝完後，配置環境變數，安裝檢查jdk等，讓客戶端能連線上資料庫的流程

本課目的：1、掌握PLSQL 引數配置；　　　 2、掌握PLSQL的tns的作用與配置；本課要求：能成功配置並執行PLSQL；主要內容：　　首先給大家介紹一下PL/SQL Developer的主要用途：　　PL/SQL Developer是一個整合開發環境，專

python+selenium自動化指令碼跑完後提示TextIOWrapper資訊

自動化指令碼跑完後，提示：.<_io.TextIOWrapper name='<stderr>' mode='w' encoding='UTF-8'> Time Elapsed: 0:00:10

看完後，搞懂ARP的工作原理，其實並不難（好文）

原址本期，我就來解答一下關於ARP的工作原理吧！思路1、思考ARP到底是幹嘛的？為什麼要有它？why？ 2、掌握ARP的工作原理。技術人，要掌握一種技術，絕對離不開以上兩點基本思路，帶著這兩個思路去學習新技術，你絕對是不可能學不會的。再笨，你也會學得很深刻的。甚至，你還

Xcode編譯完後，在Finder中檢視可執行檔案路徑和沙盒路徑

截圖技巧：Mac自帶截圖快捷鍵Shift + Command + 3,按下這個組合鍵，圖片自動儲存到桌面。選擇Xcode的Preferences選單開啟後選擇“Locations”選項開啟後的Finder 進入《DerivedData》目錄就可以找到你的工程，可

Scrapy-Redis redis_key連結跑完後，自動關閉爬蟲

問題：

課外瞭解

解決思路：

redis_key 為空後一段時間關閉爬蟲 的實現方案：

相關推薦

redis_key 為空後一段時間關閉爬蟲的實現方案：