scrapy原始碼分析（六）---------------CrawlProcess

阿新 • • 發佈：2019-02-11

上一篇教程中講到crawl命令最終會執行CrawlProcess的crawl和start方法。這一篇對CrawlProcess的原始碼進行詳細分析，來了解一下是如何進行爬取任務的。

先看一下CrawlProcess的建構函式:

scrapy/crawler.py:

可以看到這個模組一共有3個類:Crawler,CrawlerRunner,CrawlerProcess.

Crawler代表了一種爬取任務，裡面使用一種spider，CrawlerProcess可以控制多個Crawler同時進行多種爬取任務。

CrawlerRunner是CrawlerProcess的父類，CrawlerProcess通過實現start方法來啟動一個Twisted的reactor,並控制shutdown訊號，比如crtl-C，它還配置頂層的logging模組。

下面結合原始碼對原始碼進行註釋解析：

class CrawlerProcess(CrawlerRunner):def __init__(self, settings=None):
        super(CrawlerProcess, self).__init__(settings) /*使用settings初始化父類CrawlerRunner*/
        install_shutdown_handlers(self._signal_shutdown) /*註冊shutdown訊號(SIGINT, SIGTERM等)的處理*/
        configure_logging(self 
.settings) /*配置loggin*/
        log_scrapy_info(self.settings) /*記錄scrapy的資訊*/

再分別來看crawl命令最終呼叫的crawl和start函式實現 :

def crawl(self, crawler_or_spidercls, *args, **kwargs):crawler = self.create_crawler(crawler_or_spidercls) /*crawl方法會建立一個Crawler物件，然後呼叫Crawler
的crawl方法開啟一個爬取任務，同時Crawler的crawl方法會返回一個Deferred物件，CrawlerProcess會將這個Deferred物件
加入一個_active集合，然後就可以在必要時結束Crawler，並通過向Deferred中新增_done callback來跟蹤一個Crawler的結束
。*/ 

    return self._crawl(crawler, *args, **kwargs) /*用建立的Crawler物件呼叫_crawl方法*/

def create_crawler(self, crawler_or_spidercls):if isinstance(crawler_or_spidercls, Crawler): /*如果已經是一個Crawler例項則直接返回*/
        return crawler_or_spidercls
    return self._create_crawler(crawler_or_spidercls) /*如果crawler_or_spidercls是一個Spider的子類則建立
一個新的Crawler,如果crawler_or_spidercls是一個字串，則根據名稱來查詢對應的spider並建立一個Crawler例項*/

def _crawl(self, crawler, *args, **kwargs):
self.crawlers.add(crawler)
d = crawler.crawl(*args, **kwargs) /*呼叫Crawler的crawl方法*/
self._active.add(d)

      def _done(result):     /*向deferred新增一個callback,如果Crawler已經結束則從活動集合中移除一個Crawler*/        
          self.crawlers.discard(crawler)        
          self._active.discard(d)        
          return result

      return d.addBoth(_done)
這裡還需要再分析的就是Crawler物件的crawl方法:
crawl這個函式使用了Twisted的defer.inlineCallbacks裝飾器，表明如果函式中有地方需要阻塞，則不會阻塞整個總流程。
會讓出執行權，關於這個裝飾器的詳細講解請檢視我前面關於Deferred的教程。

@defer.inlineCallbacks
def crawl(self, *args, **kwargs):
    assert not self.crawling, "Crawling already taking place"
self.crawling = True
    try:
        self.spider = self._create_spider(*args, **kwargs) /*建立一個spider，通過呼叫spider的

from_crawler的方法來建立一個spider物件*/

self.engine = self._create_engine() /*建立一個ExecutionEngine執行引擎*/

start_requests = iter(self.spider.start_requests()) /*獲取spider定義的start_requests,這個在教程四中有詳細
講解*/

yield self.engine.open_spider(self.spider, start_requests) /*呼叫執行引擎開啟spider,關於Execution的原始碼分析將在下
一篇教程中詳解*/

yield defer.maybeDeferred(self.engine.start) /*啟動執行引擎*/

    except Exception:

if six.PY2:

exc_info = sys.exc_info()

self.crawling = False

if self.engine is not None:

yield self.engine.close()

if six.PY2:

six.reraise(*exc_info)

raise

現在，還剩CrawlProcess的start函式，原始碼分析如下;

def start(self, stop_after_crawl=True):if stop_after_crawl:
        d = self.join()
        # Don't start the reactor if the deferreds are already fired
if d.called:
            return
d.addBoth(self._stop_reactor)

    reactor.installResolver(self._get_dns_resolver()) /*安裝一個dns快取*/
    tp = reactor.getThreadPool()
    tp.adjustPoolsize(maxthreads=self.settings.getint('REACTOR_THREADPOOL_MAXSIZE')) /*根據配置調整
reactor的執行緒池*/
    reactor.addSystemEventTrigger('before', 'shutdown', self.stop)
    reactor.run(installSignalHandlers=False)  /*啟動reactor*/

這個函式首先呼叫join函式來對前面所有Crawler的crawl方法返回的Deferred物件新增一個_stop_reactor方法，當所有Crawler
物件都結束時用來關閉reactor.

scrapy原始碼分析（六）---------------CrawlProcess

上一篇教程中講到crawl命令最終會執行CrawlProcess的crawl和start方法。這一篇對CrawlProcess的原始碼進行詳細分析，來了解一下是如何進行爬取任務的。先看一下CrawlProcess的建構函式: scrapy/crawler.py: 可以看到

Flume NG原始碼分析（六）應用程式使用的RpcClient設計

上一篇Flume NG原始碼分析（五）使用ThriftSource通過RPC方式收集日誌介紹了ThriftSource利用Thrfit服務ThriftSourceProtocol來收集日誌。這篇說說flume-ng-sdk中提供給應用層序使用的RpcClient的設計和實現。繼續使用ThriftR

YOLOv2原始碼分析（六）

文章全部YOLOv2原始碼分析我們再次回到了parse_network_cfg函式 //parse_network_cfg else if(lt == ACTIVE){

Dubbo原始碼分析（六）Dubbo通訊的編碼解碼機制

Dubbo原始碼分析（一）Dubbo的擴充套件點機制 Dubbo原始碼分析（二）Dubbo服務釋出Export Dubbo原始碼分析（三）Dubbo的服務引用Refer Dubbo原始碼分析（四）Dubbo呼叫鏈-消費端（叢集容錯機制） Dubbo原始碼分析（五）Dubbo呼叫鏈-服務端

libevent原始碼分析（六）

libevent-1.4/sample/singnal-test.c 接下來看看 event_base_dispatch(base); 這個函式是整個Reactor的核心，是一個loop. 函式定義： int event_base_dispatch(struct

集合原始碼分析（六）HashMap集合

1、HashMap概述：底層是雜湊演算法，針對鍵。HashMap允許null鍵和null值，執行緒不安全，效率高。鍵不可以重複儲存，值可以。雜湊結構：不能保證資料的迭代順序，也不能保證順序的恆久不變。 Map集合（無序、無索引、不可以重複）是雙列集合，一個鍵對應一個

spring4.2.9 java專案環境下ioc原始碼分析（六）——refresh之obtainFreshBeanFactory方法（@4預設標籤bean，beans解析、最終註冊）

接上篇文章，解析了import和alias標籤，只是開胃菜比較簡單，下面介紹bean標籤的載入，也是預設名稱空間下解析的重點。protected void processBeanDefinition(Element ele, BeanDefinitionParserDeleg

scrapy原始碼分析（三）---------ExecutionEngine（二）一個request的週期

上一篇中講解了ExecutionEngine的主迴圈流程，下面就具體講解下不需要擱置時，如何處理一個request，從下載頁面到解析頁面，最後到資料處理的整個流程。幾個核心的類介紹如下： 1.Scr

Glide原始碼分析（六），快取架構、存取命中分析

分析Glide快取策略，我們還得從之前分析的Engine#load方法入手，這個方法中，展示了快取讀取的一些策略，我們繼續貼上這塊程式碼。 Engine#load public <R> LoadStatus load( Gli

Netty5原始碼分析（六） -- CodeC編解碼分析

Netty5的CodeC編解碼對以往的版本進行了簡化，沒有單獨的Encoder / Decoder介面，都繼承了ChannelHandlerApdater類，來實現ChannelHandler介面。對Decoder來說，主要有兩個頂層的抽象類，一個是從位元組流到訊息的B

Scrapy原始碼分析（三）：訊號管理器SignalManager

類的位置scrapy.signalmanager.SignalManager。主要是對pydispatch.dispatcher的一層封裝。首先來看看pydispatch.dispatcher都有哪些功能：專案主頁這個模組主要提供了訊息的傳送和接收功能，主頁的示例：

Thrift原始碼分析（六）-- Transport傳輸層分析

RPC作為一種特殊的網路程式設計，會封裝一層傳輸層來支援底層的網路通訊。Thrift使用了Transport來封裝傳輸層，但Transport不僅僅是底層網路傳輸，它還是上層流的封裝。關於Transport的設計，從架構上看，IO流和網路流都是IO的範疇，用一個統一的介面

Libevent原始碼分析（六）--- bufferevent

上一節說過，libevent提供六種bufferevent型別，後面會詳細分析其中的兩個：bufferevent_sock和bufferevent_async.下面是bufferevent的詳細定義： struct bufferevent { /*

Scrapy原始碼分析（四）：請求Request

本次我們要分析的Scrapy原始碼為Request模組，模組的位置： from scrapytest.http import Request 首先把Request的原始碼附上： class Request(object_ref): def __init__(sel

Tomcat原始碼分析（六）----- Tomcat 啟動過程(一)

說到Tomcat的啟動，我們都知道，我們每次需要執行tomcat/bin/startup.sh這個指令碼，而這個指令碼的內容到底是什麼呢？我們來看看。啟動指令碼 startup.sh 指令碼 #!/bin/sh os400=false case "`uname`" in OS400*) os

mybatis 原始碼分析（六）StatementHandler 主體結構分析

分析到這裡的時候，mybatis 初始化、介面、事務、快取等主要功能都已經講完了，現在就還剩下 StatementHandler 這個真正幹活的傢伙沒有分析了；所以接下來的部落格內容主要和資料庫的關係比較密切，而 StatementHandler 的主要流程也基本是和 JDBC 的流程是一一對應的；一、St

Netty原始碼分析（六）----- 客戶端接入accept過程

通讀本文，你會了解到1.netty如何接受新的請求2.netty如何給新請求分配reactor執行緒3.netty如何給每個新連線增加ChannelHandler netty中的reactor執行緒 netty中最核心的東西莫過於兩種型別的reactor執行緒，可以看作netty中兩種型別的發動機，驅動著

HLS學習（六）HLSDownloader原始碼分析（5）解析Media PlayList

解析Media PlayList PlayList就是m3u8檔案或者索引檔案，Media PlayList也叫媒體播放列表或者媒體索引檔案解析Media PlayList的流程如下：1、如果hls_media_playlist結構體中媒體資訊存在，那麼先刪除2

scrapy原始碼分析（十一）----------下載器Downloader

經過前面幾篇的分析，scrapy的五大核心元件已經介紹了4個：engine,scheduler,scraper,spidemw。還剩最後一個downloader，這個下載器關係到了網頁如何下載，內容相對來說是最為複雜的一部分，這篇教程就逐步分析其原始碼。下載操作開始於

Mybaits 原始碼解析（六）----- 全網最詳細：Select 語句的執行過程分析（上篇）（Mapper方法是如何呼叫到XML中的SQL的？）

上一篇我們分析了Mapper介面代理類的生成，本篇接著分析是如何呼叫到XML中的SQL 我們回顧一下MapperMethod 的execute方法 public Object execute(SqlSession sqlSession, Object[] args) { Object res

scrapy原始碼分析（六）---------------CrawlProcess

相關推薦