scrapy-redis案例（二）爬取中國紅娘相親網站

阿新 • • 發佈：2019-02-03

前言：本案例將分為三篇。

第一篇，使用scrapy框架來實現爬取中國紅娘相親網站。

第二篇，使用scrapy-redis 簡單的方式爬取中國紅娘相親網站。（使用redis儲存資料，請求具有持續性，但不具備分散式）

第三篇，使用scrapy-redis 分散式的方法爬取中國紅娘相親網站。

（1）祭出scrapy-redis 的框架圖

scrapy-redis 只是在scrapy 的基礎上增加了reids 的擴充套件。這裡不過多介紹。我會再寫一篇介紹scrapy-redis的基礎內容。

在這裡，假設你已經瞭解scrapy-redis的基礎了，也安裝了redis 和 scrapy-redis 的第三方類庫，並安裝了redis資料庫。

這裡我們引入scrapy-redis 官方提供的例子，作為我們的參考。

這個github工程就是 scrapy-redis 的原始碼，其中example-project 就是官方提供的示例。我們將這個工程都下載下來。

（2）分析官方示例中的dmoz.py 和 settings.py 檔案

【1】settings.py 檔案

settings 檔案定義了新的一些規則：

# 修改request去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 修改排程器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 允許暫停， redis資料不會丟失
SCHEDULER_PERSIST = True
# 預設的請求佇列順序
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

在ITEM_PIPELINES 的設定增加一個對redis 的支援

# scrapy_redis  將資料存放到 redis
ITEM_PIPELINES = {
    'example.pipelines.ExamplePipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

其他的配置並沒有變化。

【2】dmoz.py

這個檔案和我們自己建立 crawlspider 沒有什麼不一樣的地方，但是執行這個爬蟲會將爬取的資料存放到redis 資料庫中。

我們可以嘗試執行一下這個爬蟲：

scrapy crawl dmoz

這個網址我們的網路可能不支援。我們可以修改一下，供我們測試一下。

#!/usr/bin/env Python
# coding=utf-8

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from example.items import ExampleItem
# 不支援redis 分散式
class DmozSpider(CrawlSpider):
    """Follow categories and extract links."""
    name = 'dmoz'
    allowed_domains = ['baidu.com']
    # start_urls = ['http://www.dmoz.org/']
    #
    # rules = [
    #     Rule(LinkExtractor(
    #         restrict_css=('.top-cat', '.sub-cat', '.cat-item')
    #     ), callback='parse_directory', follow=True),
    # ]
    #
    # def parse_directory(self, response):
    #     for div in response.css('.title-and-desc'):
    #         yield {
    #             'name': div.css('.site-title::text').extract_first(),
    #             'description': div.css('.site-descr::text').extract_first().strip(),
    #             'link': div.css('a::attr(href)').extract_first(),
    #         }

    start_urls = ['http://www.baidu.com/']

    rules = [
        Rule(LinkExtractor(allow="/"), callback='parse_directory', follow=True),
    ]

    def parse_directory(self, response):
        item = ExampleItem()
        yield item

將這個內容替換dmoz.py 的內容就可，再次執行一下，可以看到爬蟲程式一直在執行。

在執行這個爬蟲之前，請確保你的redis 資料庫服務已經開啟。

官方案例的setting設定中並沒有對redis 資料庫進行設定，那就是預設的。

redis 預設連線ip 127.0.0.1 埠 6379

我們使用 redis-Deskesktop-manager 這個軟體，檢視一下我們redis資料庫

其中items 就是我們爬取到的資料。我們可以看下pipelines.py 中，儲存就是這些資訊。

這裡不多說明，等我再理解理解這個框架，再解釋其中的原理。可以先看看其他博主的文章。

從這個執行結果，我們知道了資料將會被儲存到redis 中，並以json 的格式儲存。

但是這個專案並不能實現分散式，但是redis存放的請求具有持續性，我們可以暫停整個爬蟲專案，再開啟，也不會有什麼影響，再次開啟的爬蟲，依然會從redis中拿到請求，去爬取資料。不會因為停止爬蟲專案，從頭開始爬取。

（3）改造第一篇中實現的普通的scrapy 專案。

在settings.py 中在追加那幾個配置，僅修改setting 即可。

#修改為 scrapy-redis

# 指定使用scrapy-redis的排程器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 指定使用scrapy-redis的去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 預設的 按優先順序排序(Scrapy預設)，由sorted set實現的一種非FIFO、LIFO方式。
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 新增redis 遠端連線的地址
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

ITEM_PIPELINES = {
    'hongniang.pipelines.HongniangPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400
}

其中redis 資料庫連線的配置，可以不用寫。但是一旦寫，就必須是這兩個key ，不能修改。

對應值可以修改為自己的。

（4）總結

只是大概介紹了一下 scrapy-redis 的內容，先有一個認識，再深入瞭解，我認為是這樣的。

scrapy-redis案例（二）爬取中國紅娘相親網站

前言：本案例將分為三篇。第一篇，使用scrapy框架來實現爬取中國紅娘相親網站。第二篇，使用scrapy-redis 簡單的方式爬取中國紅娘相親網站。（使用redis儲存資料，請求具有持續性，但不具備分散式）第三篇，使用scrapy-redis 分散式的方法爬取中國紅娘相親網

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

部落格搬家系列（二）-爬取CSDN部落格

部落格搬家系列（二）-爬取CSDN部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（三）-爬取部落格園部落格：https://bl

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。爬蟲的基本原理——通用框架 1.挑選種子URL； 2.講這些URL放入帶抓取的URL列隊； 3.取出帶抓取的URL，下載並存儲進已下載網頁庫中。此外，講這些URL放入帶抓取UR

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows **Python版本： Python3.x ** 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 i

Scrapy學習筆記（3）爬取知乎首頁問題及答案

目標：爬取知乎首頁前x個問題的詳情及問題指定範圍內的答案的摘要 power by: Python 3.6 Scrapy 1.4 json pymysql Step 1——相關簡介 Step 2——模擬登入知乎如果不登入

scrapy研究探索（二）——爬w3school.com.cn

下午被一個問題困擾了好一陣，最終使用另一種方式解決。在開始之前假設你已經成功安裝一切所需，整懷著一腔熱血想要抓取某網站。一起來have a try。 1．前期基礎準備。 Oh,不能在準備了，直接來。（1）建立專案。輸入： scapy startproject

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

Scrapy實戰篇（二）之爬取鏈家網成交房源數據（下）

html win64 4.0 https set 爬蟲使用創建鼓樓區在上一小節中，我們已經提取到了房源的具體信息，這一節中，我們主要是對提取到的數據進行後續的處理，以及進行相關的設置。數據處理我們這裏以把數據存儲到mongo數據庫為例。編寫pipelines.p

Scrapy爬蟲（5）爬取當當網圖書暢銷榜

The log sdn detail iss 就是 pan 微信公眾號打開 ??本次將會使用Scrapy來爬取當當網的圖書暢銷榜，其網頁截圖如下： ??我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並保存為csv格式的文件。項目的具體創建就不

scrapy入門實戰練習（一）----爬取豆瓣電影top250

轉自知乎網工具和環境語言：python 2.7IDE： Pycharm瀏覽器：Chrome爬蟲框架：Scrapy 1.2.1教程正文觀察頁面結構通過觀察頁面決定讓我們的爬蟲獲取每一部電影的排名、電影名稱、評分和評分的人數。宣告ItemItems爬取的主要目標就是從非結構性的資

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

Scrapy爬蟲（5）爬取噹噹網圖書暢銷榜

本次將會使用Scrapy來爬取噹噹網的圖書暢銷榜，其網頁截圖如下：我們的爬蟲將會把每本書的排名，書名，作者，出版社，價格以及評論數爬取出來，並儲存為csv格式的檔案。專案的具體建立就不再多講，可以參考上一篇部落格，我們只需要修改items.py檔

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

redis學習（二）——String數據類型

字符串類型創建復雜度 back nbsp 命令時間復雜度 value con 一、概述字符串類型是Redis中最為基礎的數據存儲類型，它在Redis中是二進制安全的，這便意味著該類型可以接受任何格式的數據，如JPEG圖像數據或Json對象描述信息等。在R

sed正則經典案例（二）

sed正則sed正則經典案例（二） ###修改登記信息格式已知文本內容如下：[[email protected]/* */ oldboy]# cat 2.txt 張三--1995/04/12--186-1233-4324--5004132131231231231 李四--1993/05/20

scrapy基本使用（二）

保持了解編寫 select 參數 cto lis 包含 pip 參考鏈接： http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id5 scrapy基本使用（一） http://www.cnbl

Redis實戰（二）CentOS 7上搭建redis-3.0.2

str 進程 ps 禁用安裝redis 結果 redis 啟動服務 pro bin 1.安裝redis wget http://download.redis.io/releases/redis-3.0.2.tar.gz tar zxvf redis-3.0.2.tar

java爬蟲一（分析要爬取數據的網站）

java爬蟲一、獲取你想要抓取的網站地址：http://www.zhaopin.com/然後打開控制臺，F12，打開。我用的是Chrome瀏覽器，跟個人更喜歡Chrome的控制臺字體。找到搜索欄對應的html標簽：http://sou.zhaopin.com/jobs/searchresult.ashx?jl

scrapy-redis案例（二）爬取中國紅娘相親網站

（1）祭出scrapy-redis 的框架圖

（2）分析官方示例中的dmoz.py 和 settings.py 檔案

【1】settings.py 檔案

【2】dmoz.py

（3）改造第一篇中實現的普通的scrapy 專案。

（4）總結

相關推薦