1. 程式人生 > >分布式爬蟲(一)------------------分布式爬蟲概述

分布式爬蟲(一)------------------分布式爬蟲概述

解決 構圖 .com 系統 使用 alt 分享 管理器 資源

分布式爬蟲概述


什麽是分布式爬蟲:

     多個爬蟲分布在不同的服務器上,通過狀態管理器進行統一調度,達到像URL去重等功能的爬蟲系統

  技術分享

分布式爬蟲的優點

  1) 充分利用多臺機器的寬帶加速

  2)充分利用多機器的IP加速爬取速度

Scrapy分布式爬蟲原理

    單機Scrapy爬蟲架構

  技術分享

分布式爬蟲需要改進的Scrapy

    1)requests隊列集中管理(在架構圖中SCHEDULER中管理)

    2)URL去重集中管理  

    解決方法:

      requests隊列存儲在單機的內存當中,URL去重原理也是存儲在內存當中的Set()集合中,解決這兩個問題,

    可以將這個隊列和集合存儲在數據庫中,進行統一的資源管理。

      在選擇數據庫時推薦使用Redis數據庫,它是一個基於內存的數據庫,將Requests隊列和URL集合存儲在內存,避免數據落地,提高效率

分布式爬蟲(一)------------------分布式爬蟲概述