1. 程式人生 > >關於一致性hash,這可能是全網最形象生動最容易理解的文件,想做架構師的你來了解一下

關於一致性hash,這可能是全網最形象生動最容易理解的文件,想做架構師的你來了解一下

問題提出

一致性hash是什麼?假設有4臺快取伺服器N0,N1,N2,N3,現在有資料OBJECT1,OBJECT2,OBJECT3,OBJECT4,OBJECT5,OBJECT5,OBJECT7,OBJECT8, 我們需要將這些資料快取到這4臺伺服器上,相應的問題是

如何設計資料存放策略,即ObjectX 應該存放在哪臺伺服器上?

為了解決這個問題,我們有如下幾個思路。

1. 餘數hash方案

採用hash(Objectx)%4來確定伺服器節點

假設 `hash(OBJECT1)=2`,由 2%4=2,可知,`Object1`則應該存放到節點`N2`上
假設 `hash(OBJECT2)=3`,由 3%4=3,可知,`Object2`則應該存放到節點`N3`上
假設 `hash(OBJECT3)=1`,由 1%4=1,可知,`Object3`則應該存放到節點`N1`上
假設 `hash(OBJECT4)=0`,由 1%4=1,可知,`Object4`則應該存放到節點`N0`上
假設 `hash(OBJECT5)=5`,由 5%4=1,可知,`Object5`則應該存放到節點`N1`上
假設 `hash(OBJECT6)=6`,由 6%4=2,可知,`Object6`則應該存放到節點`N2`上
假設 `hash(OBJECT7)=7`,由 7%4=3,可知,`Object7`則應該存放到節點`N3`上
假設 `hash(OBJECT8)=8`,由 8%4=0,可知,`Object8`則應該存放到節點`N0`上

假設我們需要讀取Object3的資料,則由hash(object3)=1可知,我們只需要訪問節點N1即可。

1.1 現在假設N3忽然故障下線

我們面臨快取重新構造的問題

採用hash(Objectx)%3來確定伺服器節點

假設 `hash(OBJECT1)=2`,由 2%3=2,可知,`Object1`則應該存放到節點`N2`上
假設 `hash(OBJECT2)=3`,由 3%3=0,可知,`Object2`則應該存放到節點`N0`上
假設 `hash(OBJECT3)=1`,由 1%3=1,可知,`Object3`則應該存放到節點`N1`上
假設 `hash(OBJECT4)=0`,由 0%3=0,可知,`Object4`則應該存放到節點`N0`上
假設 `hash(OBJECT5)=5`,由 5%3=2,可知,`Object5`則應該存放到節點`N2`上
假設 `hash(OBJECT6)=6`,由 6%3=0,可知,`Object6`則應該存放到節點`N0`上
假設 `hash(OBJECT7)=7`,由 7%3=1,可知,`Object7`則應該存放到節點`N1`上
假設 `hash(OBJECT8)=8`,由 8%3=2,可知,`Object8`則應該存放到節點`N2`上

此時為了保證資料的準確性,我們需要

將資料`Object2`從`N3`遷移到`N0`
將資料`Object5`從`N1`遷移到`N2`
將資料`Object6`從`N2`遷移到`N0`
將資料`Object7`從`N3`遷移到`N1`
將資料`Object8`從`N0`遷移到`N2`

1.2 現在假設我們新增一臺新的伺服器N4

我們面臨快取重新構造的問題

採用hash(Objectx)%5來確定伺服器節點

假設 `hash(OBJECT1)=2`,由 2%5=2,可知,`Object1`則應該存放到節點`N2`上
假設 `hash(OBJECT2)=3`,由 3%5=3,可知,`Object2`則應該存放到節點`N3`上
假設 `hash(OBJECT3)=1`,由 1%5=1,可知,`Object3`則應該存放到節點`N1`上
假設 `hash(OBJECT4)=0`,由 0%5=0,可知,`Object4`則應該存放到節點`N0`上
假設 `hash(OBJECT5)=5`,由 5%5=0,可知,`Object5`則應該存放到節點`N0`上
假設 `hash(OBJECT6)=6`,由 6%5=1,可知,`Object6`則應該存放到節點`N1`上
假設 `hash(OBJECT7)=7`,由 7%5=2,可知,`Object7`則應該存放到節點`N2`上
假設 `hash(OBJECT8)=8`,由 8%5=3,可知,`Object8`則應該存放到節點`N3`上

此時為了保證資料的準確性,我們需要

將資料`Object2`從`N3`遷移到`N0`
將資料`Object5`從`N1`遷移到`N0`
將資料`Object6`從`N2`遷移到`N1`
將資料`Object7`從`N3`遷移到`N2`
將資料`Object8`從`N0`遷移到`N3`

從上述倆種情況可以看出,一旦機器數目變化,我們面臨大量的快取變化問題,換言之,快取大部分失效,很可能會導致雪崩。

2.一致性hash方案

現在我們更換如下策略

0<hash(Objectx)%8<=2 ,則存放在`N0`
2<hash(Objectx)%8<=4 ,則存放在`N1`
4<hash(Objectx)%8<=6 ,則存放在`N2`
6<hash(Objectx)%8<=8 ,則存放在`N3`

2.1 現在假設N3忽然故障下線

我們面臨快取重新構造的問題,調整策略如下

0<hash(Objectx)%8<=2 ,則存放在`N0`
2<hash(Objectx)%8<=4 ,則存放在`N1`
4<hash(Objectx)%8<=6 ,則存放在`N2`
6<hash(Objectx)%8<=8 ,則存放在`N0`

此時為了保證資料的準確性,我們需要 將資料ObjectXN3遷移到N0,受影響的資料僅僅N3相關的資料。

2.2 現在假設我們新增一臺新的伺服器N4

我們面臨快取重新構造的問題,調整策略如下

0<hash(Objectx)%8<=2 ,則存放在`N0`
2<hash(Objectx)%8<=4 ,則存放在`N1`
4<hash(Objectx)%8<=5 ,則存放在`N2`
5<hash(Objectx)%8<=6 ,則存放在`N4`
6<hash(Objectx)%8<=8 ,則存放在`N3`

此時為了保證資料的準確性,我們需要 將資料從N2複製到N4,受影響的僅僅N2相關的使用者。

比較上述倆種做法,可見方案2更優. 方案2就是一致性hash

2.3 缺點

機器越少,則每臺機器上負載將越不均勻,解決這個問題的方法是新增虛擬節點,調整策略,如下,可以想象,資料越多,分佈越均勻。

0<hash(Objectx)%8<=1 ,則存放在`N0`
1<hash(Objectx)%8<=2 ,則存放在`N1`
2<hash(Objectx)%8<=3 ,則存放在`N2`
3<hash(Objectx)%8<=4 ,則存放在`N3`
4<hash(Objectx)%8<=5 ,則存放在`N0`
5<hash(Objectx)%8<=6 ,則存放在`N1`
6<hash(Objectx)%8<=7 ,則存放在`N2`
7<hash(Objectx)%8<=8 ,則存放在`N3`

3. 一致性Hash原理

原理網路上太多,這裡不