分散式豆瓣爬蟲（三）: 控制節點-控制排程器

阿新 • • 發佈：2018-12-21

一、實現原理

控制排程器主要是產生並啟動 URL 管理程序、資料提取程序和資料儲存程序，同時維護4個佇列保持程序間的通訊，分別為 url_q、result_q、conn_q、store_q。4個佇列說明如下：

url_q：佇列是 URL 管理程序將 URL 傳遞給爬蟲節點的通道。
result_q：佇列是爬蟲節點將資料返回給資料提取程序的通道。
conn_q：佇列是資料提取程序將新的 URL 資料提交給 URL 管理程序的通道。
store_q：佇列是資料提取程序將獲取到的資料交給資料儲存程序的通道。

二、程式碼如下

  1 from multiprocessing.managers import 
 BaseManager
  2 from multiprocessing import Queue, Process
  3 from DataOutput import DataOutput
  4 from UrlManager import UrlManager
  5 import time
  6 
  7 
  8 class NodeManager:
  9     def start_manager(self, url_q, result_q):
 10         """
 11         建立一個分散式管理器
 12         :param url_q: url 佇列
 
 13         :param result_q: 結果佇列
 14         :return: BaseManager
 15         """
 16         # 把建立的兩個佇列註冊在網路上，利用 register 方法，callable 引數關聯了 Queue 物件
 17         # 將 Queue 物件在網路中暴露
 18         BaseManager.register('get_task_queue', callable=lambda:url_q)
 19         BaseManager.register('get_result_queue 
', callable=lambda:result_q)
 20         # 繫結埠 8001，設定驗證口令"douban"，相當於物件的初始化並返回
 21         return BaseManager(address=('', 8001), authkey='douban'.encode('utf-8'))
 22 
 23     def url_manager_proc(self, url_q, conn_q, root_url):
 24         """
 25         url 管理程序
 26         :param url_q: url 佇列
 27         :param conn_q: 解析得到的 url 佇列
 28         :param root_url: 起始 url
 29         :return: None
 30         """
 31         url_manage = UrlManager()
 32         url_manage.add_new_url(root_url)
 33         while True:
 34             while url_manage.has_new_url():
 35                 print('old_urls={}'.format(url_manage.old_urls_size()))
 36                 new_url = url_manage.get_new_url()
 37                 url_q.put(new_url)
 38                 urls = conn_q.get()
 39                 url_manage.add_new_urls(urls)
 40             else:
 41                 url_q.put('end')
 42                 print('控制節點發起結束通知')
 43                 url_manage.save_progress('old_urls.txt', url_manage.old_urls)
 44                 url_manage.save_progress('new_urls.txt', url_manage.new_urls)
 45                 return
 46 
 47     def result_solve_proc(self, result_q, conn_q, store_q):
 48         """
 49         資料提取程序
 50         :param result_q: 未處理資料佇列
 51         :param conn_q: 解析得到的 url 佇列
 52         :param store_q: 解析後的資料佇列
 53         :return:
 54         """
 55         while True:
 56             try:
 57                 if not result_q.empty():
 58                     content = result_q.get()
 59                     if content['new_urls'] == 'end':
 60                         print('結果分析程序接收通知然後結束')
 61                         store_q.put('end')
 62                         return
 63 
 64                     conn_q.put(content['new_urls'])
 65                     store_q.put(content['data'])
 66                 else:
 67                     time.sleep(0.1)
 68             except:
 69                 time.sleep(0.1)
 70 
 71     def store_proc(self, store_q):
 72         """
 73         資料儲存程序
 74         :param store_q: 解析後的資料佇列
 75         :return:
 76         """
 77         output = DataOutput()
 78         while True:
 79             if not store_q.empty():
 80                 data = store_q.get()
 81 
 82                 if data == 'end':
 83                     print('儲存程序接收結束通知然後結束')
 84                     return
 85 
 86                 for item in data:
 87                     output.output_csv(item)
 88             else:
 89                 time.sleep(0.1)
 90 
 91 
 92 if __name__ == '__main__':
 93     # 初始化 4 個佇列
 94     url_q = Queue()
 95     result_q = Queue()
 96     conn_q = Queue()
 97     store_q = Queue()
 98     # 建立分散式管理器
 99     node = NodeManager()
100     manager = node.start_manager(url_q, result_q)
101     # 建立 url 管理程序、資料提取程序和資料儲存程序
102     url = 'https://movie.douban.com/top250?start=0'
103     url_manager_proc = Process(target=node.url_manager_proc, args=(url_q, conn_q, url,))
104     result_solve_proc = Process(target=node.result_solve_proc, args=(result_q, conn_q, store_q,))
105     store_proc = Process(target=node.store_proc, args=(store_q,))
106     # 啟動 3 個程序和分散式管理器
107     url_manager_proc.start()
108     result_solve_proc.start()
109     store_proc.start()
110     manager.get_server().serve_forever()

分散式豆瓣爬蟲（三）: 控制節點-控制排程器

一、實現原理控制排程器主要是產生並啟動 URL 管理程序、資料提取程序和資料儲存程序，同時維護4個佇列保持程序間的通訊，分別為 url_q、result_q、conn_q、store_q。4個佇列說明如下： url_q：佇列是 URL 管理程序將 URL 傳遞給爬蟲節點的通道。 result_

分散式豆瓣爬蟲（一）: 控制節點- URL 管理器

一、簡單分散式爬蟲架構本次分散式爬蟲採用主從模式，主從模式是指一臺主機作為控制節點，負責管理所有執行網路爬蟲的主機，爬蟲只需要從控制節點那裡接收任務，並把新生成任務提交給控制節點就可以了，在這個過程中不必與其他爬蟲通訊，這種方式實現簡單、利於管理。而控制節點則需要與所有爬蟲進行通訊，因此可以看

基本爬蟲架構實現的豆瓣爬蟲（三）: HTML 解析器

一、實現原理 HTML 解析器使用 Xpath 規則進行 HTML 解析，需要解析的部分主要有書名、評分和評分人數。二、程式碼如下 1 from lxml.html import etree 2 import re 3 4 class HtmlParser:

學寫塊裝置驅動（三）----踢開IO排程器,自己處理bio（下）

本篇的（上）基本搞清楚了我們已經實現的記憶體塊裝置驅動和通用塊層之間的絲絲聯絡。現在我們該做點自己想做的事情了：踢開IO排程器，自己來處理bio。踢開IO排程器很容易，即不使用__make_request 這個系統指定的強力函式，如何不使用？其實我們從（上）的blk_init_queue()函式中也能看

學寫塊裝置驅動（三）----踢開IO排程器,自己處理bio（上）

前兩篇我們編寫了在記憶體中的最簡單的塊裝置驅動程式，併為其更換了我們心儀的’noop‘IO排程器。本篇我們試著搞清楚核心的塊裝置層在這裡為我們做的事情，以及我們如何做點自己想做的事情。其實，我們前面兩篇都是圍繞著請求佇列（request_queue）這東西做事情。初始化請求佇列時我們註冊上驅動處理請求（r

分布式豆瓣爬蟲（二）: 控制節點-數據存儲器

電影 ram 分布修改豆瓣 tput col spa 節點一、實現原理因為存儲方式相同所以數據存儲器的代碼無需修改二、代碼如下 1 import csv 2 3 class DataOutput: 4 def __init__(self):

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python3 爬蟲（三） -- 爬取豆瓣首頁圖片

序前面已經完成了簡單網頁以及偽裝瀏覽器的學習。下面，實現對豆瓣首頁所有圖片爬取程式，把圖片儲存到本地一個路徑下。首先，豆瓣首頁部分圖片展示這只是擷取的一部分。下面給出，整個爬蟲程式。爬蟲程式

Python學習之路（四）爬蟲（三）HTTP和HTTPS

CP 發出 net 長度現在消息頭理論 LV 模型 HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文本傳輸協議）：是一種發布和接收 HTML頁面的方法。 HTTPS（Hypertext Transfer Protoc

【完全分散式Hadoop】（三）叢集設定SSH無密碼登陸

之前的文章已經有SSH免密部分，這裡單獨列出來只是為了方便查詢打通SSH，設定ssh無密碼登陸（所有節點）組建了三個節點的叢集hadoop000、hadoop001、hadoop002 在所有節點上執行 ssh-keygen -t rsa 一路回車，生成無密碼的金鑰對。將各個節點的公鑰

微服務分散式事務實戰（三）SpringCloud註冊中心編寫和測試

SpringCloud註冊中心編寫和測試（1）建立註冊中心工程（2）新增jar包 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLS

分散式理論系列（三）ZAB 協議

分散式理論系列（三）ZAB 協議在學習了 Paxos 後，接下來學習 Paxos 在開源軟體 Zookeeper 中的應用。一、Zookeeper Zookeeper 致力於提供一個高效能、高可用，且具有嚴格的順序訪問控制能力(主要是寫操作的嚴格順序性)的分散式協調服務。高效能使得 Zooke

自學python爬蟲（三）正則表示式

一、什麼是正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元，及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。（非Python獨有，python中re模組實現）二、常見的匹配模式 re.match

Matlab學習筆記（三）--選單與控制元件

26、選單的建立使用函式uimenu建立選單. 使用示例： clear all ; clc ; rect=get(0,'screenSize');%獲取螢幕尺寸 N=512;%螢幕尺寸 %建立圖形視窗 gwin=figure('MenuBar','none','Nu

網易雲音樂評論爬蟲（三）:爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道，網易雲音樂每首歌曲後面都有很多評論，熱門歌曲的評論更是接近百萬或者是超過百萬條．現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論，由於網易雲音樂的評論都做了混淆加密處理，因此我們需要深入瞭解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論．一，首

3dmax學習筆記（三）--視點顯示控制

顯示模式：1.模型一般是以實體方式顯示的，若想看線框方式，摁F3；返回實體，摁F3；2.實體加線框模式顯示，摁F4；返回，摁F4；3.透明效果：ALT+X，透明顯示，之後F4，顯示線框；程式內的其他顯示方式：點選透視-->選擇模式注：和最終輸出無關，只有關顯示快速降級的顯示方式：摁o鍵，旋轉的時候會自動

python爬蟲（三）：BeautifulSoup 【6. 例項】

爬取最好大學網的大學排名需要掌握的其它知識：（1）列表 list1=[1,2,3]，list1.append([3,4]) （2）format用法 .format 比 % 更好用，按位置替換，詳細瞭解可以參考網址 https://blog.csdn.ne

（三）Lua 流程控制

Lua 流程控制控制結構的條件表示式結果可以是任何值，Lua認為false和nil為假，true和非nil為真。語句描述 if if語句由一個布林表示式作為條件判斷，其後緊跟其他

scrapy專利爬蟲（三）——簡單實際操作

scrapy專利爬蟲（三）——簡單實際操作確定連結在chrome中開啟審查元素中的network選項，檢視查詢專利時傳送的請求。觀察後發現在每次查詢的時候，瀏覽器都會先發送兩條請求給伺服器。傳送相關請求經過觀察發現，網站的查詢流程是先發送不帶引

基本爬蟲架構實現的豆瓣爬蟲（五）: 爬蟲排程器

一、實現原理爬蟲排程器首先要做的是初始化各個模組，然後通過 crawl(start_url) 方法傳入入口 URL，方法內部實現按照執行流程控制各個模組的工作。二、程式碼如下 1 from UrlManager import UrlManager 2 from HtmlDo

分散式豆瓣爬蟲（三）: 控制節點-控制排程器

相關推薦