Scrapy研究探索（三）——Scrapy核心架構與代碼執行分析

阿新 • • 發佈：2019-04-05

動作 rap sdn rep edi 而後 spi download 其它

學習曲線總是這樣，簡單樣例“淺嘗”。在從理論+實踐慢慢攻破。理論永遠是基礎，切記“勿在浮沙築高臺”。

一. 核心架構

關於核心架構。在官方文檔中闡述的非常清晰，地址：http://doc.scrapy.org/en/latest/topics/architecture.html。

英文有障礙可查看中文翻譯文檔。筆者也參與了Scraoy部分文檔的翻譯。我的翻譯GitHub地址：https://github.com/younghz/scrapy_doc_chs。源repo地址：https://github.com/marchtea/scrapy_doc_chs。

以下就直接轉載部分文檔（地址：http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/architecture.html）：

概述
接下來的圖表展現了Scrapy的架構，包含組件及在系統中發生的數據流的概覽(綠色箭頭所看到的)。
以下對每一個組件都做了簡介，並給出了具體內容的鏈接。
數據流例如以下所描寫敘述。

Scrapy architecture

組件
Scrapy Engine
引擎負責控制數據流在系統中全部組件中流動，並在相應動作發生時觸發事件。具體內容查看以下的數據流(Data Flow)部分。

調度器(Scheduler)
調度器從引擎接受request並將他們入隊，以便之後引擎請求他們時提供給引擎。

下載器(Downloader)
下載器負責獲取頁面數據並提供給引擎，而後提供給spider。

Spiders
Spider是Scrapy用戶編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。
每一個spider負責處理一個特定(或一些)站點。很多其它內容請看 Spiders 。

Item Pipeline
Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(比如存取到數據庫中)。很多其它內容查看 Item Pipeline 。

下載器中間件(Downloader middlewares)
下載器中間件是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response。

其提供了一個簡便的機制。通過插入自己定義代碼來擴展Scrapy功能。很多其它內容請看下載器中間件(Downloader Middleware) 。

Spider中間件(Spider middlewares)
Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)。處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制。通過插入自己定義代碼來擴展Scrapy功能。很多其它內容請看 Spider中間件(Middleware) 。

數據流(Data flow)

Scrapy中的數據流由執行引擎控制，其步驟例如以下:

1.引擎打開一個站點(open a domain)，找到處理該站點的Spider並向該spider請求第一個要爬取的URL(s)。
2.引擎從Spider中獲取到第一個要爬取的URL並在調度器(Scheduler)以Request調度。

3.引擎向調度器請求下一個要爬取的URL。
4.調度器返回下一個要爬取的URL給引擎，引擎將URL通過下載中間件(請求(request)方向)轉發給下載器(Downloader)。
5.一旦頁面完成下載。下載器生成一個該頁面的Response，並將其通過下載中間件(返回(response)方向)發送給引擎。
6.引擎從下載器中接收到Response並通過Spider中間件(輸入方向)發送給Spider處理。
7.Spider處理Response並返回爬取到的Item及(跟進的)新的Request給引擎。

8.引擎將(Spider返回的)爬取到的Item給Item Pipeline，將(Spider返回的)Request給調度器。
9.(從第二步)反復直到調度器中沒有很多其它地request，引擎關閉該站點。

二. 數據流與代碼執行分析

這裏主要分析數據流部分並與代碼結合起來。與上面的流程1-9相應。

（1）找spider——在spider目錄下查找相關定義爬蟲文件

（2）引擎獲取URL——自己定義spider中start_urls列表中獲取

（3）...

（4）...

（5）通過（3）（4）（5）就在內部實現了依據URL生成request。下載器依據request生成response這個過程。即URL-》request-》reponse。

（6）...

（7）在自己定義spider中調用默認的parse()方法或是制定的parse_*()方法處理接收到的reponse，處理的結果非常重要：

第一個，抽取item值。

第二個，假設須要繼續爬取。這裏會返回request給引擎。（這是“自己主動”爬取多個網頁的關鍵）。

（8）（9）引擎繼續調度。直至無request。

進階：

Scrapy架構呈現星型拓撲結構。“引擎”作為整個架構的核心協調、控制整個系統的執行。

原創，轉載註明：http://blog.csdn.net/u012150179/article/details/34441655

Scrapy研究探索（三）——Scrapy核心架構與代碼執行分析

動作 rap sdn rep edi 而後 spi download 其它學習曲線總是這樣，簡單樣例“淺嘗”。在從理論+實踐慢慢攻破。理論永遠是基礎，切記“勿在浮

Scrapy研究探索（六）——自動爬取網頁之II（CrawlSpider）

一.目的。在pipelines.py中實現獲得資料的過濾以及儲存。但是以上述方法只能爬取start_url列表中的網頁，而網路爬蟲如google等搜尋引擎爬蟲實現的就是對整個網際網路的爬取，所以在本教程中研究使用scrapy自動實現多網頁爬取功能。二.熱身。

scrapy研究探索（二）——爬w3school.com.cn

下午被一個問題困擾了好一陣，最終使用另一種方式解決。在開始之前假設你已經成功安裝一切所需，整懷著一腔熱血想要抓取某網站。一起來have a try。 1．前期基礎準備。 Oh,不能在準備了，直接來。（1）建立專案。輸入： scapy startproject

我的python之路（三）：什麽是代碼與python的基本類型

函數計算機 8進制 16進制 python 數字 type div 3.2 tro 3.1 什麽是代碼？ 1、什麽是代碼代碼是現實世界事物在計算機世界中的映射2019-05-01 2、什麽是寫代碼寫代碼是將現實世界中中的事物用計算機語言來描述 3.2 py

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

scrapy專利爬蟲（三）——簡單實際操作

scrapy專利爬蟲（三）——簡單實際操作確定連結在chrome中開啟審查元素中的network選項，檢視查詢專利時傳送的請求。觀察後發現在每次查詢的時候，瀏覽器都會先發送兩條請求給伺服器。傳送相關請求經過觀察發現，網站的查詢流程是先發送不帶引

Scrapy實戰篇（三）之爬取豆瓣電影短評

地址 pad __init__ {} 爬取 opera -m range pytho 今天的主要內容是爬取豆瓣電影短評，看一下網友是怎麽評價最近的電影的，方便我們以後的分析，以以下三部電影：二十二，戰狼，三生三世十裏桃花為例。由於豆瓣短評網頁比較簡單，且不存在動態加載的內

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

小白學 Python 爬蟲（35）：爬蟲框架 Scrapy 入門基礎（三） Selector 選擇器

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Dubbo探索（三）

least and 權重調用設置 ast 相同比較配置方法負載均衡策略一、Random LoadBalance 原理：按權重設置隨機概率，假設有A，B兩臺服務器，權重比例為A:B=2:1,那麽假設當前有30000個並發請求，則分配給A的請求數大概20000個，B

【搜尋那些事】細談lucene（三）lucene核心API簡介

經過前面的簡單理論介紹，相信大家對搜尋引擎lucene有個簡單的瞭解。前面我們也提到過在lucene中主要包括索引和搜尋這兩大方面的元件。今天我們我們就通過一個簡單的例項來看一下lucene給我們提供的有關這兩個元件的簡單用法。一：建立索引在用lucene搜尋之前，我們首先要做的

kafka（三）：核心概念以及框架

一、核心概念 1.Message：資料.傳遞的資料物件，主要由四部分構成：offset(偏移量)、key、value、timestamp(插入時間)。 2.Broker：一般情況一臺伺服器一個broker，但是可以部署多個,反應到具體的程序就是Kafka程序 3.Topic：

大資料之Spark（三）--- Spark核心API，Spark術語，Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

Scrapy框架學習（一）Scrapy框架介紹

Scrapy框架的架構圖如上。 Scrapy中的資料流由引擎控制，資料流的過程如下： 1.Engine開啟一個網站，找到處理該網站的Sprider，並向該Sprider請求第一個要爬取得URL。 2.Engine從Sprider中獲取到第一個要爬的URL，並通過Scheduler以Requ

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

跳躍NLP曲線：自然語言處理研究綜述（三）（翻譯）

3. 重疊NLP曲線隨著網際網路時代的到來，文明經歷了深刻的影響，我們現在比以往任何時候都經歷的快很多。即使是適應、發展和創新技術，也會讓人感到恍惚，即淘汰就在眼前。特別是NLP研究在過去15年中並沒有像其它技術那樣發展。雖然NLP研究在執行人工智慧行為

AI探索（三）Tensorflow程式設計模型

Tensorflow程式設計模型。。。。後續完善 import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' import numpy as np num_points = 1000 data_array = [] for i in x

scrapy專利爬蟲（一）——scrapy簡單介紹

scrapy專利爬蟲（一）——scrapy簡單介紹概述 scrapy是一款方便，快捷的開源爬蟲框架。 An open source and collaborative framework for extracting the data you need from w

【mysql】mysql索引探索（三）-- 高效能使用索引的策略

既然我們已經對索引的本質有所瞭解，那麼我們就應該來討論如何高效能的使用引擎。 1. 列的離散性越高，選擇性越好。列的離散性是這樣定義的：count(discount col):count(col)，也就是不同的列數比列的總數。這個數值越大說明列的離散型就越好。如果用

iOS自動化探索（三）WebDriverAgent Python Client

之前我們在終端試著呼叫過WDA API，今天我們在看一個Python封裝的api庫 https://github.com/openatx/facebook-wda 安裝方式（一）: pip install --pre facebook-wda 安裝方式（二）:

Scrapy研究探索（三）——Scrapy核心架構與代碼執行分析

一. 核心架構

概述

Scrapy architecture

數據流(Data flow)

二. 數據流與代碼執行分析

（1）找spider——在spider目錄下查找相關定義爬蟲文件

（2）引擎獲取URL——自己定義spider中start_urls列表中獲取

（3）...

（4）...

（5）通過（3）（4）（5）就在內部實現了依據URL生成request。下載器依據request生成response這個過程。即URL-》request-》reponse。

（6）...

（7）在自己定義spider中調用默認的parse()方法或是制定的parse_*()方法處理接收到的reponse，處理的結果非常重要：

（8）（9）引擎繼續調度。直至無request。

進階：

相關推薦