開發一款開源爬蟲框架系列（二）：設計爬蟲架構

阿新 • • 發佈：2018-12-31

既然是構建分散式爬蟲架構，分散式說明爬蟲能在多臺機器同時執行，所以一定是多客戶端的，客戶端主要用於下載網頁，內容會放入佇列，多客戶端就有可能執行在不同的作業系統不同的語言環境，所以我們讓它暫時支援java和scala兩種依賴jvm的語言，不用區分平臺。提到客戶端也一定意味著有服務端的存在，服務端主要用於解析網頁，提取url，輸出內容到相應的儲存器，服務端和客戶端使用netty進行通訊，這是C/S模式。還有一種cluster模式，將爬蟲部署到叢集機器上，之間相互通訊協調，完成下載、分析、儲存等功能，這種模式下效能和擴充套件性都能得到提升。那麼問題來了，我們怎麼保活呢？很顯然是用心跳管理能完成這個功能。那麼我們怎麼保證可靠性呢？很顯然是用tcp通訊協議。那麼怎麼設計spider的客戶端呢？首先明確客戶端的功能邊界，客戶端首先必須接受服務端的指令，服務端讓爬哪些url就爬哪些url，所以url由服務端統一管理，服務端會從url佇列(以域名區分維護不同的url佇列)中取出url並封裝後傳輸給客戶端，客戶端接受到物件和會插入到佇列中，然後客戶端從佇列中取出url爬取網頁並解析（相當於scrapy中downloader和spider的功能集合），解析出的資訊封裝到物件中傳給服務端，服務端接收到這個物件後會傳入storechannel（可能是hadoop－hdfs，hbase，elasticsearch）。傳過來的url會經過驗證和去重後儲存到記憶體資料庫中，並將url根據host塞入佇列。

開發一款開源爬蟲框架系列（二）：設計爬蟲架構

開發一款開源爬蟲框架系列（二）：設計爬蟲架構

爬蟲入門系列（二）：優雅的HTTP庫requests

STM32開發筆記48：STM32F4+DP83848乙太網通訊指南系列（二）：系統時鐘

爬蟲入門系列（四）：HTML文字解析庫BeautifulSoup

爬蟲入門系列（五）：正則表示式完全指南（上）

爬蟲入門系列（三）：用 requests 構建知乎 API

爬蟲入門系列（六）：正則表示式完全指南（下）

六、學習爬蟲框架WebMagic（二）---使用註解編寫爬蟲

python爬蟲系列（二）：標準庫的使用（A）

“造輪運動”之 ORM框架系列（二）~ 說說我心目中的ORM框架

基於 abp vNext 和 .NET Core 開發部落格專案 - Blazor 實戰系列（二）

容器開啟數據服務之旅系列（二）：Kubernetes如何助力Spark大數據分析

JavaScript夯實基礎系列（二）：閉包

ELK系列（二）：.net core中使用ELK

eShopOnContainers學習系列（二）：數據庫連接健康檢查

linux系列（二）：cd命令

Windows Service 學習系列（二）：C# windows服務：安裝、解除安裝、啟動和停止Windows Service

faster rcnn pytorch 復現系列（二）：generate_anchors原始碼解析

Fragment全解析系列（二）：正確的使用姿勢

詳解SVM系列（二）：拉格朗日對偶性

開發一款開源爬蟲框架系列（二）：設計爬蟲架構

相關推薦