1. 程式人生 > >一致性 Hash 演算法(分散式或均衡演算法)

一致性 Hash 演算法(分散式或均衡演算法)

簡介: 一致性雜湊演算法在1997年由麻省理工學院提出的一種分散式雜湊(DHT)實現演算法,設計目標是為了解決因特網中的熱點(Hot spot)問題,初衷和CARP十分類似。一致性雜湊修正了CARP使用的簡單雜湊演算法帶來的問題,使得分散式雜湊(DHT)可以在P2P環境中真正得到應用。

場景引入: 比如你有 N 個 cache 伺服器(後面簡稱 cache ),那麼如何將一個物件 object 對映到 N 個 cache 上呢,你很可能會採用類似下面的通用方法計算 object 的 hash 值,然後均勻的對映到到 N 個 cache : hash(object)%N1 上面取模的方法一般稱為簡單 hash 演算法 。通過簡單 hash 演算法確實能夠比較均勻地實現分散式佈置(對映),但是我們來考慮下面兩種情形:

1) 某個 cache 伺服器 m down 掉了(在實際應用中必須要考慮這種情況),這樣所有對映到 cache m 的物件都會失效,怎麼辦,需要把 cache m 從 cache 中移除,這時候 cache 是 N-1 臺,對映公式變成了 hash(object)%(N-1) ;

2) 由於訪問加重,需要新增 cache ,這時候 cache 是 N+1 臺,對映公式變成了 hash(object)%(N+1) ;

1) 和 2) 意味著什麼?這意味著無論是新增或移除 cache 伺服器,突然之間幾乎所有的 cache 都失效了。對於伺服器而言,這是一場災難,洪水般的訪問都會直接衝向後臺伺服器;

為了解決上面的問題,我們引入一致性 Hash 演算法(consistent hashing)。

hash 演算法和單調性

Hash 演算法的一個衡量指標是單調性( Monotonicity ),定義如下:

單調性是指如果已經有一些內容通過雜湊分派到了相應的緩衝中,又有新的緩衝加入到系統中。雜湊的結果應能夠保證原有已分配的內容可以被對映到新的緩衝中去,而不會被對映到舊的緩衝集合中的其他緩衝區。

簡單的說,單調性要求在移除 / 新增一個 cache(機器,ip)時,它能夠儘可能小的改變已存在 key 對映關係。

容易看到,上面的簡單 hash 演算法 hash(object)%N 難以滿足單調性要求。因為 N 的變化會使取模結果發生變化。

一致性 Hash 演算法原理:

一致性 Hash 演算法簡單的說,在移除 / 新增一個 cache 時,它能夠儘可能小的改變已存在 key 對映關係,儘可能的滿足單調性的要求。

下面就來按照 6 個步驟簡單講講一致性 Hash 演算法的基本原理。

步驟一:環形 hash 空間

考慮通常的 hash 演算法都是將 value 對映到一個 32 位的 key 值(然後取模),也即是 0~2^32-1 次方的數值空間;我們可以將這個空間想象成一個首( 0 )尾( 2^32-1 )相接的圓環。如下圖所示: 在這裡插入圖片描述

步驟二:把物件處理成整數並對映到環形 hash 空間

例如現在我們有四個物件 object1~object4,通過 hash 函式將四個物件處理成整數 key:

key1 = hash(object1); key2 = hash(object2); key3 = hash(object3); key4 = hash(object4);

然後將這些物件按照 key 的值對映到環形 hash 空間上: 在這裡插入圖片描述

步驟三:把 cache 對映到環形 hash 空間

一致性 Hash 演算法的基本思想就是將物件和 cache 都對映到同一個 hash 數值空間中,並且使用相同的 hash 演算法。

假設現在有三臺 cache 伺服器:cacheA、cacheB、cacheC,通過 hash 函式處理獲取對應的key值:

keyA = hash(cacheA); keyB = hash(cacheB); keyC = hash(cacheC);

將三個 cache 伺服器按照 key 的值對映到環形 hash 空間上: 在這裡插入圖片描述

說到這裡,順便提一下 cache 的 hash 計算,一般的方法可以使用 cache 機器的 IP 地址或者機器名作為 hash 輸入。

經過上面的步驟,我們把物件和cache 伺服器都對映到同一個環形 hash 空間上。下面考慮的是如何將物件對映到 cache 伺服器上。

步驟四:將物件對映到 cache 伺服器

我們沿著圓環順時針方向的物件 key (圖中的 key1)出發,直到遇到一個cache伺服器為止(cacheB),把物件key對應的物件對映到這個伺服器上。因為物件和 cache 的 hash 值是固定的,因此這個 cache 必然是唯一和確定的。按照這樣的方法,可以得出:物件 object 1 對映到 cacheB,object2、object3 對映到 cacheC,object4 對映到 cacheA。如圖: 在這裡插入圖片描述

前面講過,普通 hash 演算法(通過 hash 然後求餘的方法)帶來的最大問題就在於不能滿足單調性,當 cache 數量有所變動時(新增/移除), 幾乎所有的 cache 會失效,進而對後臺伺服器造成巨大的衝擊,接下來分析一致 hash 演算法。

步驟五:新增 cache 伺服器

現在假如訪問加重,需要增加 cacheD 伺服器,經過 hash 函式計算(keyD = hash(cacheD))發現數值介於 key3 和 key2 之間,即在圓環上的位置也是介於它們之間。這時候受到影響的是沿著 KeyD 逆時針出發直到遇到下一個 cache 伺服器(keyB)之間的物件(這些物件原本是對映到 cacheC 上的),將這些物件重新對映到 cacheD 即可。

在我們的例子中僅僅是 object2(key2)需要變動,將其重新對映到 cacheD 即可: 在這裡插入圖片描述

步驟六:移除 cache 伺服器

還是按照原來的圖(步驟五之前)分析,假如現在 cacheB 伺服器 down 掉了,需要把 cacheB 伺服器移除,這時候受到影響的僅是那些沿著 keyB 逆時針出發知道遇到下一個伺服器(cacheA)之間的物件,也就是本來對映到 cacheB 上的那些物件。

我們的例子中僅僅是 object1(key1)需要變動,將其重新對映到 cacheC 即可: 在這裡插入圖片描述

平衡性與虛擬節點:

考量 Hash 演算法的另一個指標是平衡性 (Balance) ,定義如下:

平衡性

平衡性是指雜湊的結果能夠儘可能分佈到所有的緩衝中去,這樣可以使得所有的緩衝空間都得到利用。

hash 演算法並不是保證絕對的平衡,如果 cache 較少的話,物件並不能被均勻的對映到 cache 上,比如在上面的例子中,僅部署 cache A 和 cache C 的情況下,在 4 個物件中, cache A 僅儲存了 object1 ,而 cache C 則儲存了 object2 、 object3 和 object4 ;分佈是很不均衡的。

為了解決這種情況, 一致性 Hash 演算法引入了“虛擬節點”的概念,它可以如下定義:

虛擬節點

“虛擬節點”( virtual node )是實際節點在 hash 空間的複製品( replica ),一實際個節點對應了若干個“虛擬節點”,這個對應個數也成為“複製個數”,“虛擬節點”在 hash 空間中以 hash 值排列。

仍以僅部署 cache A 和 cache C 的情況為例,在移除 cacheB 伺服器圖中我們已經看到, cache 分佈並不均勻。現在我們引入虛擬節點,並設定“複製個數”為 2 ,這就意味著一共會存在 4 個“虛擬節點”, cache A1, cache A2 代表了 cache A ; cache C1, cache C2 代表了 cache C ;假設一種比較理想的情況,如圖: 在這裡插入圖片描述

此時,物件到“虛擬節點”的對映關係為:

objec1->cache C2 ; objec2->cache A1 ; objec3->cache C1 ; objec4->cache A2 ;

因此物件 object4 和 object2 都被對映到了 cache A 上,而 object3 和 object1 對映到了 cache C 上;平衡性有了很大提高。

引入“虛擬節點”後,對映關係就從 { 物件 -> 節點 } 轉換到了 { 物件 -> 虛擬節點 } 。查詢物體所在 cache 時的對映關係如圖所示。 在這裡插入圖片描述

“虛擬節點”的 hash 計算可以採用對應節點的 IP 地址加數字字尾的方式。例如假設 cache A 的 IP 地址為 202.168.14.241 。

引入“虛擬節點”前,計算 cache A 的 hash 值:

Hash(“202.168.14.241”);

引入“虛擬節點”後,計算“虛擬節”點 cache A1 和 cache A2 的 hash 值:

Hash(“202.168.14.241#1”); // cache A1

Hash(“202.168.14.241#2”); // cache A2