Scrapy基礎第三節：Scrapy框架結構和元件介紹

阿新 • • 發佈：2019-01-30

前置知識：

掌握Python的基礎知識
對爬蟲基礎有一定了解

說明： 執行環境

Win10，Python3 64位

引擎開啟一個網站(open a domain)，找到處理該網站的Spider並向該spider請求第一個要爬取的URL(s)。
引擎從Spider中獲取到第一個要爬取的URL並在排程器(Scheduler)以Request排程
引擎向排程器請求下一個要爬取的URL。
排程器返回下一個要爬取的URL給引擎，引擎將URL通過下載中介軟體(請求(request)方向)轉發給下載器(Downloader)。

一旦頁面下載完畢，下載器生成一個該頁面的Response，並將其通過下載中介軟體(返回(response)方向)傳送給引擎。
引擎從下載器中接收到Response並通過Spider中介軟體(輸入方向)傳送給Spider處理。
Spider處理Response並返回爬取到的Item及(跟進的)新的Request給引擎。
引擎將(Spider返回的)爬取到的Item給Item Pipeline，將(Spider返回的)Request給排程器。
(從第二步)重複直到排程器中沒有更多地request，引擎關閉該網站。

3 Scrapy元件概覽

在這裡插入圖片描述

4 擴充套件原始碼瞭解

只是瞭解一些用法還不夠，更深入一點需要去看原始碼，scrapy也是託管在github上，專案主頁

原始碼這麼多怎麼看，最根本的還是要掌握5大核心模組是怎麼實現的，它們在原始碼中的位置：

(1) Engine：scrapy/scrapy/core/engine.py
(2) Scheduler：scrapy/scrapy/core/scheduler.py
(3) Downloader：scrapy/scrapy/core/downloader/
(4) Spider：scrapy/scrapy/spider.py
(5) Item pipeline：scrapy/scrapy/pipelines/

scrapy入口：

從scrapy_home/bin/scrapy/cmdline.py這個模組的execute()函式開始
每個具體的命令對應於一個scrapy_home/scrapy/commands包下具體的模組

scrapy/core/scheduler.py

1）對每一個引擎傳遞過來的request請求進行指紋驗證 request_seen
2) 在request_seen中會判斷request物件的指紋資訊fp，是否已經存在於集合中，如果已經存在不再請求，去掉重複
3) 如果沒有請求過，就講request物件儲存到佇列mqs中，等待被排程

Scrapy基礎第三節：Scrapy框架結構和元件介紹

前置知識：掌握Python的基礎知識對爬蟲基礎有一定了解說明：執行環境 Win10，Python3 64位目錄: 1 Scrapy框架組成結構 2 Scapry資料流程 Scrap

Scrapy基礎第一節：Scrapy介紹和安裝配置

Scrapy第一季：Scrapy框架基礎介紹前置知識：掌握Python的基礎知識對爬蟲基礎有一定了解說明：執行環境 Win10，Python3 64位目錄: 第一節：Scrapy介紹和安裝配置第二節：Scrapy版的Hello World

第三節：OpenGL框架實現

首先需要在實現程式碼的語句最前面包含如下程式碼： #include <glad/glad.h> #include <GLFW/glfw3.h> Note: 確認在包含GLFW的標頭檔案之前包含了GLAD的標頭檔案。GLAD的標頭檔案包含了正確的Op

python爬蟲基礎（13：Scrapy框架之架構流程與目錄）

框架對於特別小的爬蟲，一般直接編寫就可以了，但一般面對一個專案級別的爬蟲，都選擇用框架框架可以理解為一個等你填坑的程式碼： 1. 為你編寫好那些必須的、重複的程式碼 2. 為你模組化好每一個元件，自動建立元件之間的聯絡，這樣就方便使用者清晰瞭解它的

第三節：Python語法基礎

第三節：Python語法基礎 python語法支援基本數學運算 None(空型別）在賦值運算中a=0.2並不會打印出來，因為返回的是一個空型別。 type()函式檢視型別容器型別：用[]表示列表，可包含不同型別的資料，type([,])=list。{}表

JAVA基礎第四章-集合框架Collection篇 JAVA基礎第一章-初識java JAVA基礎第二章-java三大特性：封裝、繼承、多型 JAVA基礎第三章-類與物件、抽象類、介面記一次list迴圈刪除元素的突發事件！

業內經常說的一句話是不要重複造輪子，但是有時候，只有自己造一個輪子了，才會深刻明白什麼樣的輪子適合山路，什麼樣的輪子適合平地！我將會持續更新java基礎知識，歡迎關注。往期章節： JAVA基礎第一章-初識java JAVA基礎第二章-java三大特性

JAVA基礎第五章-集合框架Map篇 JAVA基礎第一章-初識java JAVA基礎第二章-java三大特性：封裝、繼承、多型 JAVA基礎第三章-類與物件、抽象類、介面 JAVA基礎第四章-集合框架Collection篇

業內經常說的一句話是不要重複造輪子，但是有時候，只有自己造一個輪子了，才會深刻明白什麼樣的輪子適合山路，什麼樣的輪子適合平地！我將會持續更新java基礎知識，歡迎關注。往期章節： JAVA基礎第一章-初識java

第三節：作用域鏈

靜態作用域規則變量和函數的預處理作用域鏈 JavaScript采用的是靜態作用域規則，也叫詞法作用域，其解析過程是按照從上到下、從左到右的順序加載，並分為兩個階段：預編譯期(預處理)和執行期。預編譯期對代碼塊中所有聲明的變量和函數進行處理。註意關鍵字：代碼塊、聲明、變量、函數。1、代碼塊代

第三節：累計主循環次數使LED燈閃爍。

程序語句 elf myself 否則註釋隨著詳情實戰開場白：上一節鴻哥提到delay()延時函數消耗的時間太長了，其它任務根本沒有機會執行，我們該怎麽改善？本節教大家利用累計主循環次數的方法來解決這個問題。這一節要教會大家兩個知識點：第一點：利用累計主循環次數的

python3下scrapy爬蟲(第九卷:scrapy數據存儲進JSON文件）

body 技術分享爬蟲 pre 修改文字 image 直接 post 將爬取數據存儲在JSON文件裏並不難，只需修改pipelines文件直接看代碼：來看下結果：中文字符惡心的很之後我會在後卷中做出修改 python3下scrapy爬蟲(第九卷:s

手動安裝K8s第三節：etcd集群部署

docker kubernetes 容器手動安裝K8s第三節：etcd集群部署準備安裝包https://github.com/coreos/etcd版本：3.2.18wget https://github.com/coreos/etcd/releases/download/v3.2.18/et

第三節：使用Log4net和過濾器記錄異常信息，返回異常給前端

ctc div json member nco 時間 header str resharp 上次面試，遇到，在項目中如何處理業務異常和代碼異常，使用txt記錄異常信息後，如何直接區分出異常的類型，異常怎麽分類處理，希望大家能幫我提出寶貴的意見，完善處理異常，統一返回參數

第三節：FreeRTOS 中斷測試實驗

目錄（1）首先了解FreeRTOSConfig.h中的巨集。 configKERNEL_INTERRUPT_PRIORITY configMAX_SYSCALL_INTERRUPT_PRIORITY （2）FreeRTOS 開關中斷

《MySQL技術內幕：InnoDB儲存引擎》——第1章 MySQL體系結構和儲存引擎

啟動 ./mysqld_safe & 檢視程序 ps -ef|grep mysqld 資料庫例項啟動時，讀取配置檔案的順序，後面的檔案配置會覆蓋前面的檔案配置 mysql --help | grep my.cnf mysql> show variables li

第三節：使用Log4net和過濾器記錄異常資訊，返回異常給前端

上次面試，遇到，在專案中如何處理業務異常和程式碼異常，使用txt記錄異常資訊後，如何直接區分出異常的型別，異常怎麼分類處理，希望大家能幫我提出寶貴的意見，完善處理異常，統一返回引數 public class HeaderResult { public HeaderR

Go基礎系列(6)：細說slice結構

slice表示切片(分片)，例如對一個數組進行切片，取出陣列中的一部分值。在現代程式語言中，slice(切片)幾乎成為一種必備特性，它可以從一個數組(列表)中取出任意長度的子陣列(列表)，為操作資料結構帶來非常大的便利性，如python、perl等都支援對陣列的slice操作，甚至perl還支援對hash資料

Akka併發程式設計——第三節：Actor模型（二）

本節主要內容： Actor API解析 1. Actor API解析 Actor中的主要成員變數和方法定義如下： package akka.actor trait Actor extends scala.AnyRef { type Rec

第三節：硬碟及分割槽工具

硬碟簡介（種類較多，僅僅介紹常用的）種類硬碟有固態硬碟（SSD）、機械硬碟（HDD ）、混合硬碟（HHD 一塊基於傳統機械硬碟誕生出來的新硬碟）；SSD採用快閃記憶體顆粒來儲存，HDD採用磁性碟片來儲存，混合硬碟是把磁性硬碟和快閃記憶體整合到一起的一種硬碟。

萌新向Python資料分析及資料探勘第一章 Python基礎第三節列表簡介第四節操作列表

第一章 Python基礎第三節列表簡介列表是是處理一組有序專案的資料結構，即可以在一個列表中儲存一個序列的專案。列表中的元素包括在方括號（[]）中，每個元素之間用逗號分割。列表是可變的資料型別，可以新增、刪除或是搜尋列表中的元素。列表可以理解為你用鉛筆在筆記本里記錄內容，內容可以修改，每

萌新向Python數據分析及數據挖掘第一章 Python基礎第三節列表簡介第四節操作列表

spa append() .com sum() 但是距離 closed 修改元素中文第一章 Python基礎第三節列表簡介列表是是處理一組有序項目的數據結構，即可以在一個列表中存儲一個序列的項目。列表中的元素包括在方括號（[]）中，每個元素之間用逗號分割。列表是

Scrapy基礎 第三節：Scrapy框架結構和元件介紹

目錄:

1 Scrapy框架組成結構

2 Scapry資料流程

3 Scrapy元件概覽

4 擴充套件原始碼瞭解

相關推薦

Scrapy基礎第三節：Scrapy框架結構和元件介紹