python分散式程式設計（轉）

阿新 • • 發佈：2018-11-07

本文程式碼轉載廖雪峰老師的python3教程

分散式程式設計的難點在於：

1.伺服器之間的通訊，主節點如何瞭解從節點的執行進度，並在從節點之間進行負載均衡和任務排程；

2.如何讓多個伺服器上的程序訪問同一資源的不同部分進行執行

第一部分涉及到網路程式設計的底層細節

第二個問題讓我聯想到hdfs的一些功能。

首先分散式程序還是解決的是單機單程序無法處理的大資料量大計算量的問題，希望能加通過一份程式碼（最多主+從兩份）來並行執行一個大任務。

這就面臨兩個問題，首先將程式分佈到多臺伺服器，其次將輸入資料分配給多臺伺服器。

第一個問題相對比較簡單，畢竟程式一般不會太長，即便是超級jar包的spark程式，也不過百兆。

但資料裡不同，如今企業級別的資料動輒GB、TB，如果在分散式程式執行之前首先要進行大容量資料的轉移，顯然是不可取的。

這時候我們就需要一箇中央共享資料來源，所有伺服器都可以對這個資料來源進行並行存取（塊block），這就已經非常接近hdfs的功能。

因為在hdfs中，叢集中的多臺伺服器共享同一個hdfs，每臺機器訪問hdfs就像訪問本地資料一樣（還是稍微慢一點）；

計算任務執行完之後，每臺伺服器還可以將自己的計算結果寫回hdfs，每臺伺服器的結果被儲存成了結果目錄中的小檔案。

# task_master.py

import random, time, queue
from multiprocessing.managers import 
 BaseManager

# 傳送任務的佇列:
task_queue = queue.Queue()
# 接收結果的佇列:
result_queue = queue.Queue()

# 從BaseManager繼承的QueueManager:
class QueueManager(BaseManager):
    pass

# 把兩個Queue都註冊到網路上, callable引數關聯了Queue物件:
QueueManager.register('get_task_queue', callable=lambda: task_queue)
QueueManager.register(' 
get_result_queue', callable=lambda: result_queue)
# 繫結埠5000, 設定驗證碼'abc':
manager = QueueManager(address=('', 5000), authkey=b'abc')
# 啟動Queue:
manager.start()
# 獲得通過網路訪問的Queue物件:
task = manager.get_task_queue()
result = manager.get_result_queue()
# 放幾個任務進去:
for i in range(10):
    n = random.randint(0, 10000)
    print('Put task %d...' % n)
    task.put(n)
# 從result佇列讀取結果:
print('Try get results...')
for i in range(10):
    r = result.get(timeout=10)
    print('Result: %s' % r)
# 關閉:
manager.shutdown()
print('master exit.')

# task_worker.py

import time, sys, queue
from multiprocessing.managers import BaseManager

# 建立類似的QueueManager:
class QueueManager(BaseManager):
    pass

# 由於這個QueueManager只從網路上獲取Queue，所以註冊時只提供名字:
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')

# 連線到伺服器，也就是執行task_master.py的機器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 埠和驗證碼注意保持與task_master.py設定的完全一致:
m = QueueManager(address=(server_addr, 5000), authkey=b'abc')
# 從網路連線:
m.connect()
# 獲取Queue的物件:
task = m.get_task_queue()
result = m.get_result_queue()
# 從task佇列取任務,並把結果寫入result佇列:
for i in range(10):
    try:
        n = task.get(timeout=1)
        print('run task %d * %d...' % (n, n))
        r = '%d * %d = %d' % (n, n, n*n)
        time.sleep(1)
        result.put(r)
    except Queue.Empty:
        print('task queue is empty.')
# 處理結束:
print('worker exit.')

python分散式程式設計（轉）

本文程式碼轉載廖雪峰老師的python3教程分散式程式設計的難點在於： 1.伺服器之間的通訊，主節點如何瞭解從節點的執行進度，並在從節點之間進行負載均衡和任務排程； 2.如何讓多個伺服器上的程序訪問同一資源的不同部分進行執行第一部分涉及到網路程式設計的底層細節第二個問題讓我聯想到hdfs的一些

python格式化輸出（轉）

表達式 () 進制整數格式化輸入輸出字符串賦值 pytho 內置在許多編程語言中都包含有格式化字符串的功能，比如C和Fortran語言中的格式化輸入輸出。Python中內置有對字符串進行格式化的操作%。模板格式化字符串時，Python使用一個字符串作為模板

Python 爬蟲 2 （轉）

規範 return python 爬蟲直接 htm str 保存 urn find 一，獲取整個頁面數據首先我們可以先獲取要下載圖片的整個頁面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url):

15個最受歡迎的Python開源框架（轉）

beta greenlet rest架構進行 blank pack jin rom lsa 原文地址：http://blog.jobbole.com/72306/ Django: Python Web應用開發框架 Django 應該是最出名的Python框架，GAE甚

啟發:從MNS事務訊息談分散式事務（轉）

啟發:從MNS事務訊息談分散式事務事務訊息本質上解決的問題是業務系統與訊息系統之間的事務問題（跨系統分散式事務），其基本原理即兩階段提交以及最終一致性保障。最近看了下阿里雲mns事務訊息的實現原理，介紹的蠻簡潔透徹的，對了解分散式事務實現原理挺有幫助，在閱讀本文前推薦大家先仔細閱讀下阿里雲"m

Python高階程式設計（五）XML解析

Python XML解析什麼是XML？ XML 指可擴充套件標記語言（eXtensible Markup Language）。你可以通過本站學習XML教程 XML 被設計用來傳輸和儲存資料。 XML是一套定義語義標記的規則，這些標記將文件分成許多部件並對這些部件加以標識。

Python高階程式設計（四）多執行緒

Python 多執行緒多執行緒類似於同時執行多個不同程式，多執行緒執行有如下優點：使用執行緒可以把佔據長時間的程式中的任務放到後臺去處理。使用者介面可以更加吸引人，這樣比如使用者點選了一個按鈕去觸發某些事件的處理，可以彈出一個進度條來顯示處理的進度程式的執

Python高階程式設計（三）資料庫

python操作mysql資料庫 Python 標準資料庫介面為 Python DB-API，Python DB-API為開發人員提供了資料庫應用程式設計介面。 Python 資料庫介面支援非常多的資料庫，你可以選擇適合你專案的資料庫： GadFly mSQL

Python高階程式設計（二）正則表示式

Python正則表示式正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。 Python 自1.5版本起增加了re 模組，它提供 Perl 風格的正則表示式模式。 re 模組使 Python 語言擁有全部的正則表示式功能。 compile 函式根據一個

Python網路程式設計（一）

一、網路基礎在學習網路程式設計前，要對網路通訊的五層協議有所瞭解，那什麼是協議呢，協議就是各方規定遵守的一種標準。網路通訊就像寄信件，是資訊與資料的交換，而在生活中我們寄信件，信件也不是從我們手裡瞬間到收件人手裡，每一次信件通訊，都會經歷這樣幾個固定流程：寫信、裝信封、投到郵箱、郵局取件、運輸到目的地

雲端計算之分散式程式設計（1）

序列(sequential)：cpu一次只執行一個程式，按照順序執行所有程式並行(concurrent)：多個任務交替使用cpu資源，在時間上共享單一cpu資源併發(parallel)：多個任務在多個cpu上同時執行分散式(distributed program)：併發任務在不同的，互聯的機器上執行（

[ python ] 網路程式設計（1）

在本地電腦上有兩個python檔案 regist.py 、login.py 一個註冊，一個登入。這兩個python一個是寫使用者資訊，一個是讀使用者資訊，要怎麼做呢？通過之前的知識，我們可以通過 regist.py 序列化一個數據並持久儲存到磁碟上，然後 login.py 在取讀取這個檔案就行。 &

python併發程式設計（day36）

一、server多程序操作例項。 #server import socket from multiprocessing import Process def talk(conn): conn.send(b'connected') ret = conn.recv(1024) p

Python併發程式設計（三）：網路程式設計之粘包現象

目錄一、什麼是粘包須知：只有TCP有粘包現象，UDP永遠不會粘包粘包不一定會發生如果發生了：1.可能是在客戶端已經粘了　　　　　　2.客戶端沒有粘，可能是在服務端粘了首先需要掌握一個socket收發訊息的原理應用

狀態機的C語言程式設計（轉）

一有限狀態機的實現方式有限狀態機（Finite State Machine或者Finite State Automata)是軟體領域中一種重要的工具，很多東西的模型實際上就是有限狀態機。 FSM的實現方式： 1） switch/case或者if/else這無意是最直觀

linux sock_raw原始套接字程式設計（轉）和Linux下Libpcap原始碼分析和包過濾機制

sock_raw原始套接字程式設計可以接收到本機網絡卡上的資料幀或者資料包,對與監聽網路的流量和分析是很有作用的.一共可以有3種方式建立這種 socket 1.socket(AF_INET, SOCK_RAW, IPPROTO_TCP|IPPROTO_UDP|IPPROT

shelve -- 用來持久化任意的Python對象（轉）

src 缺省 alt 開始 log 因此每一個 gpo plain 這幾天接觸了Python中的shelve這個module，感覺比pickle用起來更簡單一些，它也是一個用來持久化（序列化）Python對象的簡單工具。當我們寫程序的時候如果不想用關系數據庫那麽重量級的東

python高階程式設計（二）--網路程式設計

1. 認識網路程式設計網路程式設計從大的方面來講就是對資訊的傳送到接收，中間傳輸為物理線路的作用。小的方面是指編寫執行在多個裝置（計算機）的程式，這些裝置都通過網路連線起來。 2. IP地址一個IP地址就是一個32位無符號整數，IP地址通常是以

Python的SimpleHTTPServer（轉）

今天花了一點時間來看看SimpleHTTPServer。這是Python的一個模組。看這個的原因是想架一個簡單簡單簡單簡單的Http Server，實現這樣的功能：使用者點選一個按鈕，創建出一個IE（Firefox）介面，可以瀏覽Flash，也可以點選Flash中的按鈕或其他什麼什麼的，然

linux 多執行緒程式設計（轉）

2009-07-16 17:10 45人閱讀評論(0) 收藏舉報 1 引言　　執行緒（thread）技術早在60年代就被提出，但真正應用多執行緒到作業系統中去，是在80年代中期，solaris是這方面的佼佼者。傳統的Unix也支援執行緒的概念，但是在一個程序（

python分散式程式設計（轉）

相關推薦