1. 程式人生 > >【轉】ZooKeeper詳細介紹和使用第一節

【轉】ZooKeeper詳細介紹和使用第一節

一、分散式協調技術

在給大家介紹ZooKeeper之前先來給大家介紹一種技術——分散式協調技術。那麼什麼是分散式協調技術?那麼我來告訴大家,其實分散式協調技術 主要用來解決分散式環境當中多個程序之間的同步控制,讓他們有序的去訪問某種臨界資源,防止造成"髒資料"的後果。這時,有人可能會說這個簡單,寫一個調 度演算法就輕鬆解決了。說這句話的人,可能對分散式系統不是很瞭解,所以才會出現這種誤解。如果這些程序全部是跑在一臺機上的話,相對來說確實就好辦了,問 題就在於他是在一個分散式的環境下,這時問題又來了,那什麼是分散式呢?這個一兩句話我也說不清楚,但我給大家畫了一張圖希望能幫助大家理解這方面的內 容,如果覺得不對儘可拍磚,來咱們看一下這張圖,如圖1.1所示。

圖 1.1 分散式系統圖

給大家分析一下這張圖,在這圖中有三臺機器,每臺機器各跑一個應用程式。然後我們將這三臺機器通過網路將其連線起來,構成一個系統來為使用者提供服務,對使用者來說這個系統的架構是透明的,他感覺不到我這個系統是一個什麼樣的架構。那麼我們就可以把這種系統稱作一個分散式系統

那我們接下來再分析一下,在這個分散式系統中如何對程序進行排程,我假設在第一臺機器上掛載了一個資源,然後這三個物理分佈的程序都要競爭這個資源,但我們又不希望他們同時進行訪問,這時候我們就需要一個協調器,來讓他們有序的來訪問這個資源。這個協調器就是我們經常提到的那個,比如說"程序-1"在使用該資源的時候,會先去獲得鎖,"程序1"獲得鎖以後會對該資源保持獨佔

,這樣其他程序就無法訪問該資源,"程序1"用完該資源以後就將鎖釋放掉,讓其他程序來獲得鎖,那麼通過這個鎖機制,我們就能保證了分散式系統中多個程序能夠有序的訪問該臨界資源。那麼我們把這個分散式環境下的這個鎖叫作分散式鎖。這個分散式鎖也就是我們分散式協調技術實現的核心內容,那麼如何實現這個分散式呢,那就是我們後面要講的內容。

二、分散式鎖的實現

好我們知道,為了防止分散式系統中的多個程序之間相互干擾,我們需要一種分散式協調技術來對這些程序進行排程。而這個分散式協調技術的核心就是來實現這個分布式鎖。那麼這個鎖怎麼實現呢?這實現起來確實相對來說比較困難的。

1.1 面臨的問題

在看了圖1.1所示的分散式環境之後,有人可能會感覺這不是很難。無非是將原來在同一臺機器上對程序排程的原語,通過網路實現在分散式環境中。是的,表面上是可以這麼說。但是問題就在網路這,在分散式系統中,所有在同一臺機器上的假設都不存在:因為網路是不可靠的。

比如,在同一臺機器上,你對一個服務的呼叫如果成功,那就是成功,如果呼叫失敗,比如丟擲異常那就是呼叫失敗。但是在分散式環境中,由於網路的不可 靠,你對一個服務的呼叫失敗了並不表示一定是失敗的,可能是執行成功了,但是響應返回的時候失敗了。還有,A和B都去呼叫C服務,在時間上 A還先呼叫一些,B後呼叫,那麼最後的結果是不是一定A的請求就先於B到達呢? 這些在同一臺機器上的種種假設,我們都要重新思考,我們還要思考這些問題給我們的設計和編碼帶來了哪些影響。還有,在分散式環境中為了提升可靠性,我們往 往會部署多套服務,但是如何在多套服務中達到一致性,這在同一臺機器上多個程序之間的同步相對來說比較容易辦到,但在分散式環境中確實一個大難題。

所以分散式協調遠比在同一臺機器上對多個程序的排程要難得多,而且如果為每一個分散式應用都開發一個獨立的協調程式。一方面,協調程式的反覆編寫浪 費,且難以形成通用、伸縮性好的協調器。另一方面,協調程式開銷比較大,會影響系統原有的效能。所以,急需一種高可靠、高可用的通用協調機制來用以協調分 布式應用。

1.2 分散式鎖的實現者

目前,在分散式協調技術方面做得比較好的就是Google的Chubby還有Apache的ZooKeeper他們都是分散式鎖的實現者。有人會問 既然有了Chubby為什麼還要弄一個ZooKeeper,難道Chubby做得不夠好嗎?不是這樣的,主要是Chbby是非開源的,Google自家 用。後來雅虎模仿Chubby開發出了ZooKeeper,也實現了類似的分散式鎖的功能,並且將ZooKeeper作為一種開源的程式捐獻給了 Apache,那麼這樣就可以使用ZooKeeper所提供鎖服務。而且在分散式領域久經考驗,它的可靠性,可用性都是經過理論和實踐的驗證的。所以我們 在構建一些分散式系統的時候,就可以以這類系統為起點來構建我們的系統,這將節省不少成本,而且bug也 將更少。

三、ZooKeeper概述

ZooKeeper是一種為分散式應用所設計的高可用、高效能且一致的開源協調服務,它提供了一項基本服務:分散式鎖服務。由於ZooKeeper的開源特性,後來我們的開發者在分散式鎖的基礎上,摸索了出了其他的使用方法:配置維護、組服務、分散式訊息佇列分散式通知/協調等。

注意:ZooKeeper效能上的特點決定了它能夠用在大型的、分散式的系統當中。從可靠性方面來說,它並不會因為一個節點的錯誤而崩潰。除此之外,它嚴格的序列訪問控制意味著複雜的控制原語可以應用在客戶端上。ZooKeeper在一致性、可用性、容錯性的保證,也是ZooKeeper的成功之處,它獲得的一切成功都與它採用的協議——Zab協議是密不可分的,這些內容將會在後面介紹。

前面提到了那麼多的服務,比如分散式鎖、配置維護、組服務等,那它們是如何實現的呢,我相信這才是大家關心的東西。ZooKeeper在實現這些服務時,首先它設計一種新的資料結構——Znode,然後在該資料結構的基礎上定義了一些原語,也就是一些關於該資料結構的一些操作。有了這些資料結構和原語還不夠,因為我們的ZooKeeper是工作在一個分散式的環境下,我們的服務是通過訊息以網路的形式傳送給我們的分散式應用程式,所以還需要一個通知機制——Watcher機制。那麼總結一下,ZooKeeper所提供的服務主要是通過:資料結構+原語+watcher機制,三個部分來實現的。那麼我就從這三個方面,給大家介紹一下ZooKeeper。

四、ZooKeeper資料模型

4.1 ZooKeeper資料模型Znode

ZooKeeper擁有一個層次的名稱空間,這個和標準的檔案系統非常相似,如下圖3.1 所示。

圖4.1 ZooKeeper資料模型與檔案系統目錄樹

從圖中我們可以看出ZooKeeper的資料模型,在結構上和標準檔案系統的非常相似,都是採用這種樹形層次結構,ZooKeeper樹中的每個節點被稱為—Znode。和檔案系統的目錄樹一樣,ZooKeeper樹中的每個節點可以擁有子節點。但也有不同之處:

(1) 引用方式

Zonde通過路徑引用,如同Unix中的檔案路徑。路徑必須是絕對的,因此他們必須由斜槓字元來開頭。除此以外,他們必須是唯一的,也就是說每一個路徑只有一個表示,因此這些路徑不能改變。在ZooKeeper中,路徑由Unicode字串組成,並且有一些限制。字串"/zookeeper"用以儲存管理資訊,比如關鍵配額資訊。

(2) Znode結構

ZooKeeper名稱空間中的Znode,兼具檔案和目錄兩種特點。既像檔案一樣維護著資料、元資訊、ACL、時間戳等資料結構,又像目錄一樣可以作為路徑標識的一部分。圖中的每個節點稱為一個Znode。 每個Znode由3部分組成:

stat:此為狀態資訊, 描述該Znode的版本, 許可權等資訊

data:與該Znode關聯的資料

children:該Znode下的子節點

ZooKeeper雖然可以關聯一些資料,但並沒有被設計為常規的資料庫或者大資料儲存,相反的是,它用來管理排程資料,比如分散式應用中的配置檔案資訊、狀態資訊、彙集位置等等。這些資料的共同特性就是它們都是很小的資料,通常以KB為大小單位。ZooKeeper的伺服器和客戶端都被設計為嚴格檢查並限制每個Znode的資料大小至多1M,但常規使用中應該遠小於此值。

(3) 資料訪問

ZooKeeper中的每個節點儲存的資料要被原子性的操作。也就是說讀操作將獲取與節點相關的所有資料,寫操作也將替換掉節點的所有資料。另外,每一個節點都擁有自己的ACL(訪問控制列表),這個列表規定了使用者的許可權,即限定了特定使用者對目標節點可以執行的操作。

(4) 節點型別

ZooKeeper中的節點有兩種,分別為臨時節點永久節點。節點的型別在建立時即被確定,並且不能改變。

① 臨時節點:該節點的生命週期依賴於建立它們的會話。一旦會話(Session)結束,臨時節點將被自動刪除,當然可以也可以手動刪除。雖然每個臨時的Znode都會繫結到一個客戶端會話,但他們對所有的客戶端還是可見的。另外,ZooKeeper的臨時節點不允許擁有子節點。

② 永久節點:該節點的生命週期不依賴於會話,並且只有在客戶端顯示執行刪除操作的時候,他們才能被刪除。

(5) 順序節點

當建立Znode的時候,使用者可以請求在ZooKeeper的路徑結尾新增一個遞增的計數。這個計數對於此節點的父節點來說唯一的,它的格式為"%10d"(10位數字,沒有數值的數位用0補充,例如"0000000001")。當計數值大於232-1時,計數器將溢位。

(6) 觀察

客戶端可以在節點上設定watch,我們稱之為監視器。當節點狀態發生改變時(Znode的增、刪、改)將會觸發watch所對應的操作。當watch被觸發時,ZooKeeper將會向客戶端傳送且僅傳送一條通知,因為watch只能被觸發一次,這樣可以減少網路流量。

4.2 ZooKeeper中的時間

ZooKeeper有多種記錄時間的形式,其中包含以下幾個主要屬性:

(1) Zxid

致使ZooKeeper節點狀態改變的每一個操作都將使節點接收到一個Zxid格式的時間戳,並且這個時間戳全域性有序。也就是說,也就是說,每個對 節點的改變都將產生一個唯一的Zxid。如果Zxid1的值小於Zxid2的值,那麼Zxid1所對應的事件發生在Zxid2所對應的事件之前。實際 上,ZooKeeper的每個節點維護者三個Zxid值,為別為:cZxid、mZxid、pZxid。

cZxid: 是節點的建立時間所對應的Zxid格式時間戳。
② mZxid:是節點的修改時間所對應的Zxid格式時間戳。

實現中Zxid是一個64為的數字,它高32位是epoch用來標識leader關係是否改變,每次一個leader被選出來,它都會有一個 新的epoch。低32位是個遞增計數(2) 版本號

對節點的每一個操作都將致使這個節點的版本號增加。每個節點維護著三個版本號,他們分別為:

① version:節點資料版本號
② cversion:子節點版本號
③ aversion:節點所擁有的ACL版本號

4.3 ZooKeeper節點屬性

通過前面的介紹,我們可以瞭解到,一個節點自身擁有表示其狀態的許多重要屬性,如下圖所示。

圖 4.2 Znode節點屬性結構

五、ZooKeeper服務中操作

在ZooKeeper中有9個基本操作,如下圖所示:

圖 5.1 ZooKeeper類方法描述

更新ZooKeeper操作是有限制的。delete或setData必須明確要更新的Znode的版本號,我們可以呼叫exists找到。如果版本號不匹配,更新將會失敗。

更新ZooKeeper操作是非阻塞式的。因此客戶端如果失去了一個更新(由於另一個程序在同時更新這個Znode),他可以在不阻塞其他程序執行的情況下,選擇重新嘗試或進行其他操作。

儘管ZooKeeper可以被看做是一個檔案系統,但是處於便利,摒棄了一些檔案系統地操作原語。因為檔案非常的小並且使整體讀寫的,所以不需要開啟、關閉或是尋地的操作。

六、Watch觸發器

(1) watch概述

ZooKeeper可以為所有的讀操作設定watch,這些讀操作包括:exists()、getChildren()及getData()。watch事件是一次性的觸發器,當watch的物件狀態發生改變時,將會觸發此物件上watch所對應的事件。watch事件將被非同步地傳送給客戶端,並且ZooKeeper為watch機制提供了有序的一致性保證。理論上,客戶端接收watch事件的時間要快於其看到watch物件狀態變化的時間。

(2) watch型別

ZooKeeper所管理的watch可以分為兩類:

資料watch(data  watches):getDataexists負責設定資料watch
孩子watch(child watches):getChildren負責設定孩子watch

我們可以通過操作返回的資料來設定不同的watch:

① getData和exists:返回關於節點的資料資訊
② getChildren:返回孩子列表

因此

一個成功的setData操作將觸發Znode的資料watch

一個成功的create操作將觸發Znode的資料watch以及孩子watch

一個成功的delete操作將觸發Znode的資料watch以及孩子watch

(3) watch註冊與處觸發

圖 6.1 watch設定操作及相應的觸發器如圖下圖所示:

exists操作上的watch,在被監視的Znode建立刪除資料更新時被觸發。
getData操作上的watch,在被監視的Znode刪除資料更新時被觸發。在被建立時不能被觸發,因為只有Znode一定存在,getData操作才會成功。
getChildren操作上的watch,在被監視的Znode的子節點建立刪除,或是這個Znode自身被刪除時被觸發。可以通過檢視watch事件型別來區分是Znode,還是他的子節點被刪除:NodeDelete表示Znode被刪除,NodeDeletedChanged表示子節點被刪除。

Watch由客戶端所連線的ZooKeeper伺服器在本地維護,因此watch可以非常容易地設定、管理和分派。當客戶端連線到一個新的伺服器 時,任何的會話事件都將可能觸發watch。另外,當從伺服器斷開連線的時候,watch將不會被接收。但是,當一個客戶端重新建立連線的時候,任何先前 註冊過的watch都會被重新註冊。

(4) 需要注意的幾點

Zookeeper的watch實際上要處理兩類事件:

① 連線狀態事件(type=None, path=null)

這類事件不需要註冊,也不需要我們連續觸發,我們只要處理就行了。

② 節點事件

節點的建立,刪除,資料的修改。它是one time trigger,我們需要不停的註冊觸發,還可能發生事件丟失的情況。

上面2類事件都在Watch中處理,也就是過載的process(Event event)

節點事件的觸發,通過函式exists,getData或getChildren來處理這類函式,有雙重作用:

① 註冊觸發事件

② 函式本身的功能

函式的本身的功能又可以用非同步的回撥函式來實現,過載processResult()過程中處理函式本身的的功能。

七、ZooKeeper應用舉例 

為了方便大家理解ZooKeeper,在此就給大家舉個例子,看看ZooKeeper是如何實現的他的服務的,我以ZooKeeper提供的基本服務分散式鎖為例。

7.1 分散式鎖應用場景

在分散式鎖服務中,有一種最典型應用場景,就是通過對叢集進行Master選舉,來解決分散式系統中的單點故障。什麼是分散式系統中的單點故障:通常分散式系統採用主從模式,就是一個主控機連線多個處理節點。主節點負責分發任務,從節點負責處理任務,當我們的主節點發生故障時,那麼整個系統就都癱瘓了,那麼我們把這種故障叫作單點故障。如下圖7.1和7.2所示:

圖 7.1 主從模式分散式系統               圖7.2 單點故障

    

7.2 傳統解決方案

傳統方式是採用一個備用節點,這個備用節點定期給當前主節點發送ping包,主節點收到ping包以後向備用節點發送回復Ack,當備用節點收到回覆的時候就會認為當前主節點還活著,讓他繼續提供服務。如圖7.3所示:

圖 7.3 傳統解決方案

當主節點掛了,這時候備用節點收不到回覆了,然後他就認為主節點掛了接替他成為主節點如下圖7.4所示:

圖 7.4傳統解決方案

但是這種方式就是有一個隱患,就是網路問題,來看一網路問題會造成什麼後果,如下圖7.5所示:

圖 7.5 網路故障

也就是說我們的主節點的並沒有掛,只是在回覆的時候網路發生故障,這樣我們的備用節點同樣收不到回覆,就會認為主節點掛了,然後備用節點將他的Master例項啟動起來,這樣我們的分散式系統當中就有了兩個主節點也就是---雙Master, 出現Master以後我們的從節點就會將它所做的事一部分彙報給了主節點,一部分彙報給了從節點,這樣服務就全亂了。為了防止出現這種情況,我們引入了 ZooKeeper,它雖然不能避免網路故障,但它能夠保證每時每刻只有一個Master。我麼來看一下ZooKeeper是如何實現的。

7.3 ZooKeeper解決方案

(1) Master啟動

在引入了Zookeeper以後我們啟動了兩個主節點,"主節點-A"和"主節點-B"他們啟動以後,都向ZooKeeper去註冊一個節點。我們 假設"主節點-A"鎖註冊地節點是"master-00001","主節點-B"註冊的節點是"master-00002",註冊完以後進行選舉,編號最 小的節點將在選舉中獲勝獲得鎖成為主節點,也就是我們的"主節點-A"將會獲得鎖成為主節點,然後"主節點-B"將被阻塞成為一個備用節點。那麼,通過這 種方式就完成了對兩個Master程序的排程。

圖7.6 ZooKeeper Master選舉

(2) Master故障

如果"主節點-A"掛了,這時候他所註冊的節點將被自動刪除,ZooKeeper會自動感知節點的變化,然後再次發出選舉,這時候"主節點-B"將在選舉中獲勝,替代"主節點-A"成為主節點。

圖7.7 ZooKeeper Master選舉

(3) Master 恢復

圖7.8 ZooKeeper Master選舉

如果主節點恢復了,他會再次向ZooKeeper註冊一個節點,這時候他註冊的節點將會是"master-00003",ZooKeeper會感知節點的變化再次發動選舉,這時候"主節點-B"在選舉中會再次獲勝繼續擔任"主節點","主節點-A"會擔任備用節點。

文件來源:http://www.cnblogs.com/wuxl360/p/5817471.html

相關推薦

ZooKeeper詳細介紹使用第一

一、分散式協調技術 在給大家介紹ZooKeeper之前先來給大家介紹一種技術——分散式協調技術。那麼什麼是分散式協調技術?那麼我來告訴大家,其實分散式協調技術 主要用來解決分散式環境當中多個程序之間的同步控制,讓他們有序的去訪問某種臨界資源,防止造成"髒資料"的後果。這時,有人可能會說這個簡單,寫一個調 度

RAID技術介紹總結

允許 pos distrib 數據讀取 body web服務器 data- 也有 丟失 轉自http://blog.jobbole.com/83808/ 簡介 RAID是一個我們經常能見到的名詞。但卻因為很少能在實際環境中體驗,所以很難對其原理 能有很清楚的認識和掌握。本文

C# list介紹用法

php 檢索 排序 c# reac ont 面向對象 類型 大型 一、LIST概述 所屬命名空間:System.Collections.Generic public class List<T> : IList<T>, ICollection

Zookeeper學習---zookeeper 選舉機制介紹

erp change 交換 內容 數值 所有 ase 一輪 eval 【原文】https://www.toutiao.com/i6593162565872779784/ zookeeper集群 配置多個實例共同構成一個集群對外提供服務以達到水平擴展的目的,每個服務器上的數據

javaweb 基礎知識 Tomcat 是什麽

att logic 資源 spa 文件系統 png intra 很快 應用開發 JavaWeb學習總結(一)——JavaWeb開發入門 一、基本概念 1.1、WEB開發的相關知識   WEB,在英語中web即表示網頁的意思,它用於表示Internet主機上供外界訪問的資

使用ssh-keygenssh-copy-id三步實現SSH無密碼登錄

works message targe auth mes unix use ner not 【原】http://blog.chinaunix.net/uid-26284395-id-2949145.html ssh-keygen 產生公鑰與私鑰對. ssh-copy-id

FTP主動模式被動模式的比較

edit 兩個 int cti 了解 選擇 監聽端口 通訊 mod 總是記不住FTP主動和被動模式的區別。放在這裏,以備日後查閱。 FTP是僅基於TCP的服務,不支持UDP。與眾不同的是FTP使用2個端口,一個數據端口和一個命令端口(也可叫做控制端口)。通常來說這兩個端

有助於事業發展幸福感提升的四個約定

堅守 做到 提升 但是 html blog 盡心 希望 調整 先做人,後做事,調節好自己的心態,調整好對人對事的方式,才能更好的做事。 以下是我聽到過的4個約定,可以幫助人發展事業並且提高自己的幸福感。每條約定後面是我對這條約定的一些看法,希望大家能談談自己的看法

斜率優化DP四邊形不等式優化DP整理

dex add ive mat 整理 off code 斜率dp 好的 當dp的狀態轉移方程dp[i]的狀態i需要從前面(0~i-1)個狀態找出最優子決策做轉移時 我們常常需要雙重循環 (一重循環跑狀態 i,一重循環跑 i 的所有子狀態)這樣的時間復雜度是O(N^2)而 斜

Java學習---HashMapHashSet的內部工作機制

link 實踐 離散 val 數據結構 結構 通過 如何 factor 【原文】https://www.toutiao.com/i6593863882484220430/ HashMap和HashSet的內部工作機制 HashMap 和 HashSet 內部是如何工作的?散

HTTP學習---TCPUDP協議的區別與應用

用戶數 prot 發送 smi 處理 層次 實時性 oot user 【原文】https://www.toutiao.com/i6592813624689951239/ 概述 ⊙TCP/IP是個協議組,可分為三個層次:網絡層、傳輸層和應用層。 在網絡層有IP協議、ICMP

logback的使用logback.xml詳解

操作 官方 觀察者 一是 變量定義 world! 是個 歸檔文件 connect from:https://www.cnblogs.com/warking/p/5710303.html 一、logback的介紹  Logback是由log4j創始人設計的另一個開源日誌組件

rhel核心版本HBA卡驅動版本之間的對應關係

https://access.redhat.com/solutions/2109211 Red Hat Enterprise Linux Kernel releases and corresponding HBA driver versions  SOLUTION 已驗證 

巨集定義中###的使用

https://www.cnblogs.com/zhongzhe/p/3892682.html   #的功能是將其後面的巨集引數進行字串化操作(Stringfication),簡單說就是在對它所引用的巨集變數通過替換後在其左右各加上一個雙引號 ##被稱為連線符(concatenator),用來

執行緒池Executor框架

  一 使用執行緒池的好處 二 Executor 框架 2.1 簡介 2.2 Executor框架結構(主要由三部分構成)  2.3 Executor框架使用說明示意圖 三 ThreadPoolExecutor詳解 3.1 Thread

linux的sleep()usleep()的使用區別

原文連結:https://blog.csdn.net/fireroll/article/details/8651593 函式名:sleep 標頭檔案:#include<windows.h>   //在VC中使用帶上標頭檔案    &

C++中堆棧的理解

一、預備知識—程式的記憶體分配 一個由c/C++編譯的程式佔用的記憶體分為以下幾個部分 1、棧區(stack)— 由編譯器自動分配釋放 ,存放函式的引數值,區域性變數的值等。其操作方式類似於資料結構中的棧。 2、堆區(heap) — 一般由程式設計師分配釋放, 若程式設計

Linuxawk詳細介紹

awk簡介     awk是一種使用方便且表現力很強的程式語言,它可以應用在多種不同的計算與資料處理任務中。由於awk天生提供對檔案中文字分列進行處理,所以如果一個檔案中的每行都被特定的分隔符(常見的是空格)隔開,我們可以將這個檔案看成是由很多列的文字組成,這樣的檔案最適合用aw

Embarcadero更新DelphiC++ Builder,釋出HTML5 Builder

Delphi和C++ Builder是我曾經比較喜歡的開發工具,看到這兩個工具的近況,在這轉一下,雖然已經是物是人非了。  對HTML5 Builder比較有興趣,準備看一下。 Embarcadero Technologies是當代開發環境的先驅,其Borland根源可追溯到Turbo Pascal

博弈論--取物品Nim遊戲

以Nim遊戲為例來進行一下計算。比如說我剛才說當只有兩堆石子且兩堆石子數量相等時後手有必勝策略,也就是這是一個P-position,下面我們依靠定義證明一下(3,3)是一個P-position。首先(3,3)的子局面(也就是通過合法移動可以導致的局面)有(0,3)(1,3)(2,3)(顯然交換石子堆的位置不