scrapy-redis介紹（一）

阿新 • • 發佈：2019-01-14

scrapy是python裡面一個非常完善的爬蟲框架，實現了非常多的功能，比如記憶體檢測，物件引用檢視，命令列，shell終端，還有各種中介軟體和擴充套件等，相信開發過scrapy的朋友都會覺得這個框架非常的強大。但是它有一個致命的缺點，不支援分散式。所以本文介紹的是scrapy_redis，繼承了scrapy的所有優點，還支援分散式。

1.安裝scrapy

安裝scrapy非常簡單:

sudo pip install scrapy
sudo pip install scrapy_redis

#如果下載的不順利，可以試試這樣，換一個國內的源，下載速度會飆升
sudo pip install --index https://pypi.mirrors 
.ustc.edu.cn/simple/ scrapy

在這裡建議開發scrapy_redis使用python 2.7版本，雖然也支援3.x，但總覺得會出bug.

安裝完成，選擇一個恰當的目錄，並進入那個目錄，執行構建專案的命令列即可自動為我們建立一個spider目錄:

scrapy startproject myspider

簡單的一行即可完成。scrapy有非常多的命令列，大家自行去查詢官方文件。

2.scrapy_redis原理

scrapy-redis原理:
1.spider解析下載器下載下來的response,返回item或者是links
2.item或者links經過spidermiddleware的process_spider_out()方法，交給engine。
3.engine將item交給itempipeline,將links交給排程器
4.在排程器中，先將request物件利用scrapy內建的指紋函式，生成一個指紋物件
5.如果request物件中的dont_filter引數設定為False,並且該request物件的指紋不在資訊指紋的佇列中，那麼就把該request物件放到優先順序的佇列中
6.從優先順序佇列中獲取request物件，交給engine
7.engine將request物件交給下載器下載，期間會通過downloadmiddleware的process_request()方法
8.下載器完成下載，獲得response物件，將該物件交給engine,期間會通過downloadmiddleware的process_response()方法
9.engine將獲得的response物件交給spider進行解析，期間會經過spidermiddleware的process_spider_input()方法
10.從第一步開始迴圈

上面的十個步驟就是scrapy-redis的整體框架，與scrapy相差無幾。本質的區別就是，將scrapy的內建的去重的佇列和待抓取的request佇列換成了redis的集合。就這一個小小的改動，就使得了scrapy-redis支援了分散式抓取。

在redis的伺服器中，會至少存在三個佇列：
a.用於請求物件去重的集合，佇列的名稱為spider.name:dupefilter，其中spider.name就是我們自定義的spider的名字，下同。
b.待抓取的request物件的有序集合，佇列的名稱為spider.name:requests
c.儲存提取到item的列表，佇列的名稱為spider.name:items
d.可能存在存放初始url的集合或者是列表，佇列的名稱可能是spider.name:start_urls

如下圖所示
這裡寫圖片描述
我自定義了一個spider,name屬性為myspider。當開始執行這個spider的時候，就可以看到在redis的伺服器中出現了三個佇列的名字，分別用來去重request物件，儲存提取到的item，存放待抓取的request物件。

那至於spider.name:start_urls這個佇列，裡面存放的是我們第一次啟動爬蟲存放的url，注意是url，而不是scrapy.http.Request物件。如果我們只向這個佇列中存放一條初始的url，那麼這個佇列只會短暫的存在。因為redis中，如果一個key中沒有資料了，那麼這個key也就消失了。

當然，如果你本身就很瞭解redis的話，這對於你來說，根本就沒有任何難度。

3.編寫scrapy_redis爬蟲

在編寫基於scrapy-redis的爬蟲的時候，我們既可以繼承自scrapy.spiders.Spider這個類，又或者是scrapy.spiders.CrawlSpider，也可以繼承自scrapy-redis的類，比如scrapy_redis.spiders.RedisSpider。

子類化scrapy自身的類時，還是按照scrapy給出的列子一樣，非常的簡單：

from scrapy.spiders import Spider

class MySpider(Spider):
    name = 'myspider'
    allowed_domains = ['www.example.com']
    start_urls = ['http://www.example.com']

    def parse(self, response):
        #do_something_with_response

這裡有一點需要明確一點，當我們沒有為request物件顯示的指定一個回撥函式時，會使用預設的parse()作為回撥函式。

執行上面的程式碼，我們就可以在redis伺服器看到前面所說的隊列了。

如果我們是子類化scrapy-redis的spider時，情況有些許的不同:

from scrapy_redis,spiders import RedisSpider

class MySpider(RedisSpider):
    name = 'myspider'
    redis_key = 'myspider:start_urls'
    allowed_domains = ['www.example.com']

    def parse(self, response):
        #do_something_with_response

這裡我們並沒有指定初始url，所以這就需要我們手動的往redis的初始url佇列中新增url,佇列的名稱為myspider:start_urls.預設情況下我們採用集合的命令進行新增，要不然會報錯的。

sadd myspider:start_urls http://www.example.com

通過往這個佇列中新增初始url，爬蟲就會開始運行了。直到沒有任何request物件，或者待抓取的url。

scrapy-redis介紹（一）

scrapy-redis介紹（一）

redis介紹（一）

Spring Data Redis整體介紹（一）

Scrapy框架學習（一）Scrapy框架介紹

scrapy專利爬蟲（一）——scrapy簡單介紹

Redis系列（一）——介紹及安裝配置

FreeSWITCH第三方庫（音頻）的簡單介紹（一）

23種設計模式介紹（一）---- 創建型模式

scrapy基本使用（一）

android application類簡單介紹（一）

（轉）Redis研究（一）—簡介

Spring Data 介紹（一）

Nginx之基本介紹（一）

.NET中使用Redis之ServiceStack.Redis學習（一）安裝與簡單的運行

機器學習之numpy庫中常用的函數介紹（一）

javascript中的DOM介紹（一）

redis安裝（一）

WebSocket 介紹（一）

硬件系列之超聲波模塊介紹（一）

Quartz學習——Quartz大致介紹（一）

scrapy-redis介紹（一）

相關推薦