圖解分布式一致性協議Paxos

阿新 • • 發佈：2018-04-27

算法 gre 全局 having flow 特殊情況競爭 set 多重

Paxos協議/算法是分布式系統中比較重要的協議，它有多重要呢？

<分布式系統的事務處理>：

Google Chubby的作者Mike Burrows說過這個世界上只有一種一致性算法，那就是Paxos，其它的算法都是殘次品。

<大規模分布式存儲系統>：

理解了這兩個分布式協議之後(Paxos/2PC)，學習其他分布式協議會變得相當容易。

學習Paxos算法有兩部分：a) 算法的原理/證明；b) 算法的理解/運作。

理解這個算法的運作過程其實基本就可以用於工程實踐。而且理解這個過程相對來說也容易得多。

網上我覺得講Paxos講的好的屬於這篇：paxos圖解及Paxos算法詳解，我這裏就結合wiki上的實例進一步闡述。一些paxos基礎通過這裏提到的兩篇文章，以及wiki上的內容基本可以理解。

算法內容

Paxos在原作者的《Paxos Made Simple》中內容是比較精簡的：

Phase 1

(a) A proposer selects a proposal number n and sends a prepare request with number n to a majority of acceptors.

(b) If an acceptor receives a prepare request with number n greater than that of any prepare request to which it has already responded, then it responds to the request with a promise not to accept any more proposals numbered less than n and with the highest-numbered pro-posal (if any) that it has accepted.

Phase 2

(a) If the proposer receives a response to its prepare requests (numbered n) from a majority of acceptors, then it sends an accept request to each of those acceptors for a proposal numbered n with a value v , where v is the value of the highest-numbered proposal among the responses, or is any value if the responses reported no proposals.

(b) If an acceptor receives an accept request for a proposal numbered n, it accepts the proposal unless it has already responded to a prepare request having a number greater than n.

借用paxos圖解文中的流程圖可概括為：

技術分享圖片

實例及詳解

Paxos中有三類角色Proposer、Acceptor及Learner，主要交互過程在Proposer和Acceptor之間。

Proposer與Acceptor之間的交互主要有4類消息通信，如下圖：

技術分享圖片

這4類消息對應於paxos算法的兩個階段4個過程：

phase 1
- a) proposer向網絡內超過半數的acceptor發送prepare消息
- b) acceptor正常情況下回復promise消息
phase 2
- a) 在有足夠多acceptor回復promise消息時，proposer發送accept消息
- b) 正常情況下acceptor回復accepted消息

因為在整個過程中可能有其他proposer針對同一件事情發出以上請求，所以在每個過程中都會有些特殊情況處理，這也是為了達成一致性所做的事情。如果在整個過程中沒有其他proposer來競爭，那麽這個操作的結果就是確定無異議的。但是如果有其他proposer的話，情況就不一樣了。

以paxos中文wiki上的例子為例。簡單來說該例子以若幹個議員提議稅收，確定最終通過的法案稅收比例。

以下圖中基本只畫出proposer與一個acceptor的交互。時間標誌T2總是在T1後面。propose number簡稱N。

情況之一如下圖：

技術分享圖片

A3在T1發出accepted給A1，然後在T2收到A5的prepare，在T3的時候A1才通知A5最終結果(稅率10%)。這裏會有兩種情況：

A5發來的N5小於A1發出去的N1，那麽A3直接拒絕(reject)A5
A5發來的N5大於A1發出去的N1，那麽A3回復promise，但帶上A1的(N1, 10%)

這裏可以與paxos流程圖對應起來，更好理解。acceptor會記錄(MaxN, AcceptN, AcceptV)。

A5在收到promise後，後續的流程可以順利進行。但是發出accept時，因為收到了(AcceptN, AcceptV)，所以會取最大的AcceptN對應的AcceptV，例子中也就是A1的10%作為AcceptV。如果在收到promise時沒有發現有其他已記錄的AcceptV，則其值可以由自己決定。

針對以上A1和A5沖突的情況，最終A1和A5都會廣播接受的值為10%。

其實4個過程中對於acceptor而言，在回復promise和accepted時由於都可能因為其他proposer的介入而導致特殊處理。所以基本上看在這兩個時間點收到其他proposer的請求時就可以了解整個算法了。例如在回復promise時則可能因為proposer發來的N不夠大而reject：

技術分享圖片

如果在發accepted消息時，對其他更大N的proposer發出過promise，那麽也會reject該proposer發出的accept，如圖：

技術分享圖片

這個對應於Phase 2 b)：

it accepts the proposal unless it has already responded to a prepare request having a number greater than n.

總結

Leslie Lamport沒有用數學描述Paxos，但是他用英文闡述得很清晰。將Paxos的兩個Phase的內容理解清楚，整個算法過程還是不復雜的。

至於Paxos中一直提到的一個全局唯一且遞增的proposer number，其如何實現，引用如下：

如何產生唯一的編號呢？在《Paxos made simple》中提到的是讓所有的Proposer都從不相交的數據集合中進行選擇，例如系統有5個Proposer，則可為每一個Proposer分配一個標識j(0~4)，則每一個proposer每次提出決議的編號可以為5*i + j(i可以用來表示提出議案的次數)

參考文檔

paxos圖解, http://coderxy.com/archives/121
Paxos算法詳解, http://coderxy.com/archives/136
Paxos算法 wiki, http://zh.wikipedia.org/zh-cn/Paxos%E7%AE%97%E6%B3%95#.E5.AE.9E.E4.BE.8B

圖解分布式一致性協議Paxos

算法 gre 全局 having flow 特殊情況競爭 set 多重 Paxos協議/算法是分布式系統中比較重要的協議，它有多重要呢？ <分布式系統的事務處理>： Google Chubby的作者Mike Burrows說過這個世界上只有一種一致性算法，那

圖解分布式一致性協議Paxos

算法內容

實例及詳解

總結

參考文檔

圖解分布式一致性協議Paxos

Zookeeper - 簡述分布式一致性協議（2pc、3pc、paxos、zab）

分布式一致性協議介紹（Paxos、Raft）

搞懂分布式技術2：分布式一致性協議與Paxos，Raft算法

[從Paxos到ZooKeeper][分布式一致性原理與實踐]<二>一致性協議

《從Paxos到Zookeeper：分布式一致性原理與實踐》【PDF】下載

分布式一致性思想描述及Paxos算法學習

分布式一致性算法Paxos

區塊鏈入門教程區塊鏈共識算法分布式一致性算法Paxos

分布式一致性的目的。

分布式一致性算法Raft

讀<分布式一致性原理>初識zookeeper

讀《分布式一致性原理》JAVA客戶端API操作

讀《分布式一致性原理》JAVA客戶端API操作2

讀《分布式一致性原理》CURATOR客戶端3

讀《分布式一致性原理》系統模型

讀《分布式一致性原理》會話

兄弟連區塊鏈教程共識算法分布式一致性算法2PC和3PC

兄弟連區塊鏈入門到精通教程區塊鏈共識算法分布式一致性算法Raft

分布式系列文章——Paxos算法原理與推導

圖解分布式一致性協議Paxos

算法內容

實例及詳解

總結

參考文檔

相關推薦