打造分布式爬蟲

阿新 • • 發佈：2018-01-26

讓其調度器 ide encoding 查看源碼 all art site 優先級隊列

原來scrapy的Scheduler維護的是本機的任務隊列（存放Request對象及其回調函數等信息）+本機的去重隊列（存放訪問過的url地址）

技術分享圖片

所以實現分布式爬取的關鍵就是，找一臺專門的主機上運行一個共享的隊列比如Redis，
然後重寫Scrapy的Scheduler，讓新的Scheduler到共享隊列存取Request，並且去除重復的Request請求，所以總結下來，實現分布式的關鍵就是三點：
#1、共享隊列
#2、重寫Scheduler，讓其無論是去重還是任務都去訪問共享隊列
#3、為Scheduler定制去重規則（利用redis的集合類型）
！！核心功能

技術分享圖片

#安裝：
pip3 install scrapy-redis

scrapy-redis組件

技術分享圖片

# 源碼分析
#一、源碼：D:\python3.6\Lib\site-packages\scrapy_redis\dupefilter.py



#二、配置scrapy使用redis提供的共享去重隊列

#2.1 在settings.py中配置鏈接Redis
REDIS_HOST = ‘localhost‘                            # 主機名
REDIS_PORT = 6379                                   # 端口
REDIS_URL = ‘redis://user:pass@hostname:9001 
‘       # 連接URL（優先於以上配置）
REDIS_PARAMS  = {}                                  # Redis連接參數
REDIS_PARAMS[‘redis_cls‘] = ‘myproject.RedisClient‘ # 指定連接Redis的Python模塊
REDIS_ENCODING = "utf-8"                            # redis編碼類型  
# 默認配置：D:\python3.6\Lib\site-packages\scrapy_redis\defaults.py


#2.2 讓scrapy使用共享的去重隊列 

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
#使用scrapy-redis提供的去重功能，查看源碼會發現是基於Redis的集合實現的


#2.3、需要指定Redis中集合的key名，key=存放不重復Request字符串的集合
DUPEFILTER_KEY = ‘dupefilter:%(timestamp)s‘
#源碼：dupefilter.py內一行代碼key = defaults.DUPEFILTER_KEY % {‘timestamp‘: int(time.time())}


#2.4、去重規則源碼分析dupefilter.py
def request_seen(self, request):
    """Returns True if request was already seen.

    Parameters
    ----------
    request : scrapy.http.Request

    Returns
    -------
    bool

    """
    fp = self.request_fingerprint(request) 
    # This returns the number of values added, zero if already exists.
    added = self.server.sadd(self.key, fp)
    return added == 0


#2.5、將request請求轉成一串字符後再存入集合

from scrapy.http import Request
from scrapy.utils.request import request_fingerprint

req = Request(url=‘http://www.baidu.com‘)
result=request_fingerprint(req)
print(result) #75d6587d87b3f4f3aa574b33dbd69ceeb9eafe7b


#2.6、註意：
    - URL參數位置不同時，計算結果一致；
    - 默認請求頭不在計算範圍，include_headers可以設置指定請求頭
    - 示範：
    from scrapy.utils import request
    from scrapy.http import Request
     
    req = Request(url=‘http://www.baidu.com?name=8&id=1‘,callback=lambda x:print(x),cookies={‘k1‘:‘vvvvv‘})
    result1 = request.request_fingerprint(req,include_headers=[‘cookies‘,])
     
    print(result)
     
    req = Request(url=‘http://www.baidu.com?id=1&name=8‘,callback=lambda x:print(x),cookies={‘k1‘:666})
     
    result2 = request.request_fingerprint(req,include_headers=[‘cookies‘,])
     
    print(result1 == result2) #True

使用共享去重隊列+源碼分析

使用scrapy-redis的去重+調度實現分布式爬取

#1、源碼：D:\python3.6\Lib\site-packages\scrapy_redis\scheduler.py


#2、settings.py配置

# Enables scheduling storing requests queue in redis.
SCHEDULER = "scrapy_redis.scheduler.Scheduler"       

# 調度器將不重復的任務用pickle序列化後放入共享任務隊列，默認使用優先級隊列（默認），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）               
SCHEDULER_QUEUE_CLASS = ‘scrapy_redis.queue.PriorityQueue‘          

# 對保存到redis中的request對象進行序列化，默認使用pickle
SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"   

# 調度器中請求任務序列化後存放在redis中的key               
SCHEDULER_QUEUE_KEY = ‘%(spider)s:requests‘    

# 是否在關閉時候保留原來的調度器和去重記錄，True=保留，False=清空                     
SCHEDULER_PERSIST = True       

# 是否在開始之前清空 調度器和去重記錄，True=清空，False=不清空                                     
SCHEDULER_FLUSH_ON_START = False    

# 去調度器中獲取數據時，如果為空，最多等待時間（最後沒數據，未獲取到）。如果沒有則立刻返回會造成空循環次數過多，cpu占用率飆升                                
SCHEDULER_IDLE_BEFORE_CLOSE = 10           

# 去重規則，在redis中保存時對應的key                         
SCHEDULER_DUPEFILTER_KEY = ‘%(spider)s:dupefilter‘      

# 去重規則對應處理的類，將任務request_fingerprint(request)得到的字符串放入去重隊列            
SCHEDULER_DUPEFILTER_CLASS = ‘scrapy_redis.dupefilter.RFPDupeFilter‘

持久化

#從目標站點獲取並解析出數據後保存成item對象，會由引擎交給pipeline進行持久化/保存到數據庫,scrapy-redis提供了一個pipeline組件，可以幫我們把item存到redis中
     
#1、將item持久化到redis時，指定key和序列化函數 
REDIS_ITEMS_KEY = ‘%(spider)s:items‘
REDIS_ITEMS_SERIALIZER = ‘json.dumps‘
 
#2、使用列表保存item數據

從Redis中獲取起始URL

scrapy程序爬取目標站點，一旦爬取完畢後就結束了，如果目標站點更新內容了，我們想重新爬取，那麽只能再重新啟動scrapy，非常麻煩
scrapy-redis提供了一種供，讓scrapy從redis中獲取起始url，如果沒有scrapy則過一段時間再來取而不會關閉
這樣我們就只需要寫一個簡單的腳本程序，定期往redis隊列裏放入一個起始url。

#具體配置如下

#1、編寫爬蟲時，起始URL從redis的Key中獲取
REDIS_START_URLS_KEY = ‘%(name)s:start_urls‘
    
#2、獲取起始URL時，去集合中獲取還是去列表中獲取？True，集合；False，列表
REDIS_START_URLS_AS_SET = False    # 獲取起始URL時，如果為True，則使用self.server.spop；如果為False，則使用self.server.lpop

# 完全復制粘貼過來的博客

打造分布式爬蟲

讓其調度器 ide encoding 查看源碼 all art site 優先級隊列原來scrapy的Scheduler維護的是本機的任務隊列（存放Request對象及其回調函數等信息）+本機的去重隊列（存放訪問過的url地址）所以實現分布式爬取的關鍵就是，找一臺

第三百三十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—深度優先與廣度優先原理

.com nbsp 網站 color -1 廣度 spa .cn png 第三百三十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—深度優先與廣度優先原理網站樹形結構深度優先是從左到右深度進行爬取的，以深度為準則從左到右的執行第三百三十

第三百五十三節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy的暫停與重啟

ctrl+ 裏的 dir 其中重啟 requests 引擎 image .cn 第三百五十三節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy的暫停與重啟 scrapy的每一個爬蟲，暫停時可以記錄暫停狀態以及爬取了哪些url，重啟時可以從暫停狀態開始

第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection)

ack 高效所有 crawl resp spider 方法啟動定義第三百五十四節，Python分布式爬蟲打造搜索引擎Scrapy精講—數據收集(Stats Collection) Scrapy提供了方便的收集數據的機制。數據以key/value方式存儲，值大多是

第三百五十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy信號詳解

第一個如果 -c stopped lin 支持 idle 資源 spider 第三百五十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy信號詳解信號一般使用信號分發器dispatcher.connect()，來設置信號，和信號觸發函數，當捕獲到信號

第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中

分布式爬蟲 times 操作加載 ger 目錄需要 ini space 第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中，判斷URL是否重復布隆過濾器(Bloom Filte

第三百六十一節，Python分布式爬蟲打造搜索引擎Scrapy精講—倒排索引

索引原理文章根據 file 索引 -i span 需要 style 第三百六十一節，Python分布式爬蟲打造搜索引擎Scrapy精講—倒排索引倒排索引倒排索引源於實際應用中需要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的

第三百六十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)的查詢

搜索引擎 ack 復合分布式內置分布在一起一起分類第三百六十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)的查詢 elasticsearch(搜索引擎)的查詢 elasticsearch是功能非常強大的搜索

第三百六十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—elasticsearch(搜索引擎)用Django實現搜索的自動補全功能

技術 django 分布全功能 -s col ron 搜索創建第三百六十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—用Django實現搜索的自動補全功能 elasticsearch(搜索引擎)提供了自動補全接口官方說明：https://www

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

Scrapy分布式爬蟲打造搜索引擎（一）,開發環境安裝

req per 分布式 apt fff mkdir bootstra ble douban Technorati 標簽: 分布式爬蟲 Linux環境下安裝mysqlsudo apt-get install mysqlserver 然後可以查看是否啟動 ps aux | gr

Python分布式爬蟲打造搜索引擎網站（價值388元）

價值基礎知識也會 net line view 發的職位 for 未來是什麽時代？是數據時代！數據分析服務、互聯網金融，數據建模、自然語言處理、醫療病例分析……越來越多的工作會基於數據來做，而爬蟲正是快速獲取數據最重要的方式，相比其它語言，Python爬蟲更簡單、高效

聚焦Python分布式爬蟲必學框架Scrapy 打造搜索引擎

表結構如何 extract requests 知識 utf 高級特性 cookie pan 第1章課程介紹介紹課程目標、通過課程能學習到的內容、和系統開發前需要具備的知識第2章 windows下搭建開發環境介紹項目開發需要安裝的開發軟件、 python虛擬virtua

scrapy進行分布式爬蟲

處的測試安裝 nag redis數據庫 key 客戶端訪問效果非關系型數據庫今天，參照崔慶才老師的爬蟲實戰課程，實踐了一下分布式爬蟲，並沒有之前想象的那麽神秘，其實非常的簡單，相信你看過這篇文章後，不出一小時，便可以動手完成一個分布式爬蟲！ 1、分布式爬蟲原理首

分布式爬蟲（一）------------------分布式爬蟲概述

解決構圖 .com 系統使用 alt 分享管理器資源分布式爬蟲概述什麽是分布式爬蟲：　　　　　多個爬蟲分布在不同的服務器上，通過狀態管理器進行統一調度，達到像URL去重等功能的爬蟲系統　　分布式爬蟲的優點　　1）充分利用多臺機器的寬帶加速

一個簡單的分布式爬蟲

key import ear pos -1 stat pro log 簡單的下載scrapy-redis： https://github.com/rmax/scrapy-redis 下載zip文件之後解壓建立兩個批處理文件，start.bat和clear.batst

python分布式爬蟲搭建開發環境（二）

back col 性能 16px 動態網頁網頁 ebs {} 常見類 scrapy 優勢： resquests和Beautifulsoup都是庫，scrapy是框架 scrapy框架可以加入前兩項 scrapy基於twisted，性能是最大的優勢 scrapy方便擴展，

簡單分布式爬蟲

size 下載 pat 關閉 and ict 一個 htm pid # url管理器 # url管理器 import pickle import hashlib class UrlManager(): def __init__(self): s

分布式爬蟲

分布 scrapy arc clas lsp wls utf con sts 1. 爬去首頁 1 # -*- coding: utf-8 -*- 2 from scrapy_redis.spiders import RedisCrawlSpider 3 import

Scrapy分布式爬蟲之ES搜索引擎網站|Scrapy爬蟲視頻教程

視頻網絡爬蟲管理系搜索引擎聚類醫療 esql pan 網絡知識 Scrapy分布式爬蟲之ES搜索引擎網站分享網盤地址——https://pan.baidu.com/s/1smNcos1 密碼：wnze 備用地址（騰訊微雲）：http://url.cn/51n4s

打造分布式爬蟲

相關推薦