分散式多爬蟲系統——架構設計

阿新 • • 發佈：2019-01-04

前言：

在爬蟲的開發過程中，有些業務場景需要同時抓取幾百個甚至上千個網站，此時就需要一個支援多爬蟲的框架。在設計時應該要注意以下幾點：

程式碼複用，功能模組化。如果針對每個網站都寫一個完整的爬蟲，那其中必定包含了許多重複的工作，不僅開發效率不高，而且到後期整個爬蟲專案會變得臃腫、難以管理。
易擴充套件。多爬蟲框架，這最直觀的需求就是方便擴充套件，新增一個待爬的目標網站，我只需要寫少量必要的內容（如抓取規則、解析規則、入庫規則），這樣最快最好。
健壯性、可維護性。這麼多網站同時抓取，報錯的概率更大，例如斷網、中途被防爬、爬到“髒資料”等等。所以必須要做好日誌監控，能實時監控爬蟲系統的狀態，能準確、詳細地定位報錯資訊；另外要做好各種異常處理，如果你放假回來發現爬蟲因為一個小問題已經掛掉了，那你會因為浪費了幾天時間而可惜的（雖然事實上我個人會不時地遠端檢視爬蟲狀態）。

分散式。多網站抓取，資料量一般也比較大，可分散式擴充套件，這也是必需的功能了。分散式，需要注意做好訊息佇列，做好多結點統一去重。
爬蟲優化。這就是大話題了，但最基本的，框架應該要基於非同步，或者使用協程+多程序。
架構簡明，要方便以後未知功能模組的新增。

需求如上，說的已經很清楚了。下面介紹一種架構設計，是去年做的了，現在分享一下。具體的程式碼實現就暫不公開了。

正文：

以下將通過解釋兩張圖來說明架構的設計思想。
分散式多爬蟲框架1

框架主要分成兩部分：下載器Downloader和解析器Analyzer。Downloader負責抓取網頁，Analyzer負責解析網頁併入庫。兩者之間依靠訊息佇列MQ進行通訊，兩者可以分佈在不同機器，也可分佈在同一臺機器。兩者的數量也是靈活可變的，例如可能有五臺機在做下載、兩臺機在做解析，這都是可以根據爬蟲系統的狀態及時調整的。

從上圖可以看到MQ有兩個管道：HTML/JS檔案和待爬種子。Downloader從待爬種子裡拿到一條種子，根據種子資訊呼叫相應的抓取模組進行網頁抓取，然後存入HTML/JS檔案這個通道；Analyzer從HTML/JS檔案裡拿到一條網頁內容，根據裡面的資訊呼叫相應的解析模組進行解析，將目標欄位入庫，需要的話還會解析出新的待爬種子加入MQ。
可以看到Downloader是包含User-Agent池、Proxy池、Cookie池的，可以適應複雜網站的抓取。
模組的呼叫使用工廠模式。

分散式多爬蟲框架2

這張圖是上張圖的另一種表述。
Htmls佇列和Seed是佇列可以獨立分開，甚至數量也可以多開，之間沒有聯絡。完全可以靈活地根據爬蟲狀態和硬體環境作調整。另外8G的內容可以讓Redis作為Seeds佇列存放5~8千萬個種子。

分散式爬蟲非常關鍵的一點：去重。可以看到多個解析器Analyzer共用一個去重佇列，才能夠保證資料的統一不重複。去重佇列可以放在一臺機上。基於Redis實現了Bloomfilter演算法（詳細見《基於Redis的Bloomfilter去重（附Python程式碼）》），理論上8G的記憶體可以滿足30億條URL的去重，如果允許漏失概率再大點的話能去重更多。

結語：

要寫一個支援分散式、多爬蟲的框架，具體的實現上還是有一定難度的。在實現主要功能以外，還要注意做到程式碼嚴謹規範，爬蟲高效健壯的要求。做完這些以後，你定會成長不少！

今天就分享這些，歡迎交流！

分散式多爬蟲系統——架構設計

前言：在爬蟲的開發過程中，有些業務場景需要同時抓取幾百個甚至上千個網站，此時就需要一個支援多爬蟲的框架。在設計時應該要注意以下幾點：程式碼複用，功能模組化。如果針對每個網站都寫一個完整的爬蟲，那其中必定包含了許多重複的工作，不僅開發效率不高，而且到後期

【阿里雲ACE成長記第5期】分散式鏈路追蹤系統架構設計的經驗分享

【引言】本期由阿里雲ACE（阿里雲開發者社群）&成都檸檬雲網絡技術有限公司資深架構師曾昌強為大家分享個人成長經歷與個人專業技術之分散式鏈路追蹤系統架構設計。視訊：https://yq.aliyun.com/live/581 Part 1：成長經歷講述一個不知道什麼叫程式設計的門外漢，如何穿越幾千

美團即時物流的分散式系統架構設計

本文根據美團資深技術專家宋斌在ArchSummit架構師峰會上的演講整理而成。背景美團外賣已經發展了五年，即時物流探索也經歷了3年多的時間，業務從零孵化到初具規模，在整個過程中積累了一些分散式高併發系統的建設經驗。最主要的收穫包括兩點：即時物流業務對故障和高延遲的容忍度極低，在業

Java架構-美團即時物流的分散式系統架構設計

背景美團外賣已經發展了五年，即時物流探索也經歷了 3 年多的時間，業務從零孵化到初具規模，在整個過程中積累了一些分散式高併發系統的建設經驗。最主要的收穫包括兩點：即時物流業務對故障和高延遲的容忍度極低，在業務複雜度提升的同時也要求系統具備分散式、可擴充套件、可容災的能力。即時

分散式、服務化的 ERP 系統架構設計

ERP之痛曾幾何時，我混跡於電商、珠寶行業4年多，為這兩個行業開發過兩套大型業務系統（ERP）。作為一個ERP系統，系統主要功能模組無非是訂單管理、商品管理、生產採購、倉庫管理、物流管理、財務管理等等。作為一個管理系統，大家的一般開發習慣就是使用.Net或Java

阿里架構師，講述網際網路分散式系統架構設計中的“高併發”

一、什麼是高併發高併發（High Concurrency）是網際網路分散式系統架構設計中必須考慮的因素之一，它通常是指，通過設計保證系統能夠同時並行處理很多請求。高併發相關常用的一些指標有響應時間（Response Time），吞吐量（Throughput），每秒

【好文分享】美團即時物流的分散式系統架構設計

文章概要美團外賣已經發展了五年，即時物流探索也經歷了 3 年多的時間，業務從零孵化到初具規模，在整個過程中積累了一些分散式高併發系統的建設經驗。最主要的收穫包括兩點：即時物流業務對故障和高延遲的容忍度極低，在業務複雜度提升的同時也要求系統具備分散式、可擴充套件、

多平臺Token系統架構設計

1 概述在存在賬號體系的資訊系統中，對身份的鑑定是非常重要的事情。隨著移動網際網路時代到來，客戶端的型別越來越多，逐漸出現了一個伺服器，N個客戶端的格局。不同的客戶端產生了不同的使用者使用場景

分散式、服務化的ERP系統架構設計

ERP之痛曾幾何時，我混跡於電商行業2年多，為這個行業開發過兩套大型業務系統（ERP）。作為一個ERP系統，系統主要功能模組無非是訂單管理、商品管理、生產採購、倉庫管理、物流管理、財務管理等等。作為一個管理系統，大家的一般開發習慣就是使用.Net或Jav

分散式系統架構設計

一個完整的電商系統，分為前臺交易系統與後臺作業系統，前後臺共庫是傳統企業在設計電商專案時的一個常見做法。但這個做法引發了上線後的諸多麻煩。在前臺交易系統處於峰值情況下，資料庫本身已存在很大的壓力，此時如果後臺作業系統產生大規模的查詢或寫入請求，則很容易造成資料庫無法響應。

全民養豬系統架構設計開發平臺

全民養豬全民養豬系統開發，(李小姐177-8870-6412微/電)全民養豬系統源碼搭建，全民養豬系統全網模式開發，全民養豬 app系統軟件開發，全民養豬系統專業開發，全民養豬系統app開發平臺，全民養豬系統設計運作、非平臺客服，玩家勿擾!!! 全民養豬每個帳戶每天可以購買100元到20

淺談秒殺系統架構設計

秒殺http://mp.weixin.qq.com/s?__biz=MjM5NDM4MDIwNw%3D%3D&mid=2448834705&idx=1&sn=25cf3d4f6d6826e564a634901189eb8f&chksm=b28a405185fdc9478b6bd

高性能、高可用、高擴展ERP系統架構設計

sqlserve 學習業務邏輯層表設計應用程序 log cnblogs 便在 tab ERP之痛曾幾何時，我混跡於電商、珠寶行業4年多，為這兩個行業開發過兩套大型業務系統（ERP）。作為一個ERP系統，系統主要功能模塊無非是訂單管理、商品管理、生產采

SaaS 系統架構設計經驗總結

計費攔截好處 abc www. ring 需求分系統數據庫 2B SaaS系統最近幾年都很火。很多創業公司都在嘗試創建企業級別的應用 cRM, HR,銷售, Desk SaaS系統。很多SaaS創業公司也拿了大額風投。畢竟SaaS相對傳統軟件的優勢非常明顯。最近一

分布式、服務化的ERP系統架構設計

你會實現 strong 感覺項目更新失敗統一都在優點每天學習一點點編程PDF電子書、視頻教程免費下載：http://www.shitanlife.com/code ERP之痛曾幾何時，我混跡於電商、珠寶行業4年多，為這兩個行業開發

DKhadoop大數據系統架構設計方案

深度穩定性 alt 自己系統架構穩定得到國產 style 大數據作為當下最為熱門的事件之一，其實已經不算是很新鮮的事情了。如果是三五年前在討論大數據，那可能會給人一種很新鮮的感覺。大數據作為當下最為重要的一項戰略資源，已經是越來越得到國家和企業的高度重視，我們從大

0. 視頻監控系統架構設計

無線 oot nfs服務實現圖1 In inux ubun 設計 0、視頻監控系統架構設計 0.1、功能指標 (1)搭建共享文件夾 (2)實現Ubuntu的NAT上網和橋接上網 (3)搭建局域網 (4)搭建nfs服務器、tftp服務器 (5)將uboot、kernel、

學生信息管理系統架構設計

系統 text 接受目的 shadow 情況 sha 機房數據庫近期學習架構設計，首先從最基本的學生信息管理系統進行分析。目的：學生信息管理系統架構設計思考第一步：識別系統復雜度 ??架構設計的真正目的是為了解決軟件復雜度帶來的問題，故應首先識別本系統復雜度在何

高級系統架構設計官方教材(帶目錄),免費拿走

圖片地址高級 name mil family 下載 chm wid 高級系統架構設計官方教材(帶目錄)下載地址：點此下載以下為目錄截圖：高級系統架構設計官方教材(帶目錄),免費拿走高級系統架構設計官方教材(帶目錄),免費拿走

分布式存儲系統架構設計，應該遵循什麽樣的原則？

不可功能故障恢復硬盤獨立實現存儲系統技術本質分布式存儲系統架構設計，應該遵循什麽樣的原則？分布式存儲系統，本質是將數據分散存儲在多臺獨立的x86設備上。傳統的網絡存儲系統通常采用集中的存儲服務器存放數據，存儲服務器很容易成為系統性能的瓶頸，也容易成為可

分散式多爬蟲系統——架構設計

前言：

正文：

結語：

相關推薦