scrapy詳細數據流走向（個人總結）

阿新 • • 發佈：2018-11-10

emp 這不 inf 處理 download 需要 pipe ddl gin

技術分享圖片

直接從數據流的角度來說比較容易理解：

·1、Spider創建一個初識url請求，把這個請求通過Engine轉給Scheduler調度模塊。然後Scheduler向Engine提供一個請求（這個請求是一個真實的url請求）

疑問點一：為什麽Engine把請求發給Scheduler模塊，然後又從Scheduler模塊裏面取出來，這不是多此一舉麽，這個Scheduler模塊有作用麽？

按照我的理解，scrapy把各個組件模塊化，就是為了更加方便的配置，當然你把所有模塊都寫在一起，功能同樣可以實現，只不過這就失去了這個框架的價值了，Scheduler就是為了存取請求，而Spider就是解析出新的請求和數據item。

疑問點二：為什麽說Scheduler存的是真實的url請求

Spider裏面的url不一定是我們需要的url，需要經過解析，生成我們所需要的真實url，然後通過Engine發送給Scheduler

2、第一步Engine已經得到了真實的url地址，然後Engine把這個請求request發送給Downloader模塊

tips：我們主要到Engine發送請求給Downloader模塊前，需要進過DownloaderMiddleware中間件，實際上這裏可以對請求做一些修改，也就是添加User-Agent之類的參數，如果用過requests第三方包應該容易理解

3、Downloader模塊把網頁下載完成後會把結果返回給Engine

tips：這個過程同樣會經過DownloaderMiddleware，所以很容易理解，我們可以在這裏修改response相關信息

4、Engine得到數據之後，它會把數據發送給Spider進行解析得到item（數據）或者是request（新的請求）

tips：比如我們本來要獲取的是圖片信息，在得到的response中發現不止有圖片信息（item），還有其他的連接（新的request）

5、Spider解析得到的item和request會有兩種走向

a：如果是item，也就是已經得到了數據，那麽就通過Engine把item發送到Itempipeline進行處理，這裏主要是進行數據的清洗、查重、保存等操作。

b：如果生成的是request，照著之前的，通過Engine把真實請求request發送給Scheduler，然後Engine從Scheduler拿request，發給給Downloader下載，Downloader下載完通過Engine發送給Spider。。如此往復，直到沒有新的request請求

有時候看到網上的教程那麽長會覺得難，不想去學，真正去學的時候會發現，其實也就那樣。好了，關於scrapy的數據流就到這。

scrapy詳細數據流走向（個人總結）

emp 這不 inf 處理 download 需要 pipe ddl gin 直接從數據流的角度來說比較容易理解： ·1、Spider創建一個初識url請求，把這個請求通過Engine轉給Scheduler調度模塊。然後Scheduler向Engine提供一個請求（這

scrapy詳細數據流走向（個人總結）

scrapy詳細數據流走向（個人總結）

scrapy詳細資料流走向（個人總結）

史上最詳細的WinHex數據恢復大師（六大章節）視頻教程

MySQL5.6 數據庫主從（Master/Slave）同步安裝與配置詳解

說說酷播雲存儲及數據分析功能（多圖）

Spring整合Redis做數據緩存（Windows環境）

數據結構排序（堆排序）

數據庫設計（理解篇）

mysql 數據庫安裝步驟個人總結

Code First 下自動更新數據庫結構（Automatic Migrations）

7-Python3從入門到實戰—基礎之數據類型（字典-Dictionary）

基於 MySQL 的數據庫實踐（更名運算）

用js來實現那些數據結構15（圖01）

數據庫恢復（database restore）之兵不血刃——半小時恢復客戶數據庫

【第一篇】ASP.NET MVC快速入門之數據庫操作（MVC5+EF6）

數據類型（元組）

MySQL數據庫8（十一）表關系

MySQL數據庫8（二十三）流程結構（if / while）

爬蟲原理與數據抓取-----（了解）通用爬蟲和聚焦爬蟲

數據結構--圖（更新中）

scrapy詳細數據流走向（個人總結）

相關推薦