關於一致性hash,這可能是全網最形象生動最容易理解的文件,想做架構師的你來了解一下
阿新 • • 發佈:2019-08-25
問題提出
一致性hash是什麼?假設有4臺快取伺服器N0,N1,N2,N3
,現在有資料OBJECT1,OBJECT2,OBJECT3,OBJECT4,OBJECT5,OBJECT5,OBJECT7,OBJECT8
,
我們需要將這些資料快取到這4臺伺服器上,相應的問題是
如何設計資料存放策略,即ObjectX 應該存放在哪臺伺服器上?
為了解決這個問題,我們有如下幾個思路。
1. 餘數hash方案
採用hash(Objectx)%4來確定伺服器節點
假設 `hash(OBJECT1)=2`,由 2%4=2,可知,`Object1`則應該存放到節點`N2`上 假設 `hash(OBJECT2)=3`,由 3%4=3,可知,`Object2`則應該存放到節點`N3`上 假設 `hash(OBJECT3)=1`,由 1%4=1,可知,`Object3`則應該存放到節點`N1`上 假設 `hash(OBJECT4)=0`,由 1%4=1,可知,`Object4`則應該存放到節點`N0`上 假設 `hash(OBJECT5)=5`,由 5%4=1,可知,`Object5`則應該存放到節點`N1`上 假設 `hash(OBJECT6)=6`,由 6%4=2,可知,`Object6`則應該存放到節點`N2`上 假設 `hash(OBJECT7)=7`,由 7%4=3,可知,`Object7`則應該存放到節點`N3`上 假設 `hash(OBJECT8)=8`,由 8%4=0,可知,`Object8`則應該存放到節點`N0`上
假設我們需要讀取Object3
的資料,則由hash(object3)=1
可知,我們只需要訪問節點N1
即可。
1.1 現在假設N3
忽然故障下線
我們面臨快取重新構造的問題
採用hash(Objectx)%3來確定伺服器節點
假設 `hash(OBJECT1)=2`,由 2%3=2,可知,`Object1`則應該存放到節點`N2`上 假設 `hash(OBJECT2)=3`,由 3%3=0,可知,`Object2`則應該存放到節點`N0`上 假設 `hash(OBJECT3)=1`,由 1%3=1,可知,`Object3`則應該存放到節點`N1`上 假設 `hash(OBJECT4)=0`,由 0%3=0,可知,`Object4`則應該存放到節點`N0`上 假設 `hash(OBJECT5)=5`,由 5%3=2,可知,`Object5`則應該存放到節點`N2`上 假設 `hash(OBJECT6)=6`,由 6%3=0,可知,`Object6`則應該存放到節點`N0`上 假設 `hash(OBJECT7)=7`,由 7%3=1,可知,`Object7`則應該存放到節點`N1`上 假設 `hash(OBJECT8)=8`,由 8%3=2,可知,`Object8`則應該存放到節點`N2`上
此時為了保證資料的準確性,我們需要
將資料`Object2`從`N3`遷移到`N0`
將資料`Object5`從`N1`遷移到`N2`
將資料`Object6`從`N2`遷移到`N0`
將資料`Object7`從`N3`遷移到`N1`
將資料`Object8`從`N0`遷移到`N2`
1.2 現在假設我們新增一臺新的伺服器N4
我們面臨快取重新構造的問題
採用hash(Objectx)%5來確定伺服器節點
假設 `hash(OBJECT1)=2`,由 2%5=2,可知,`Object1`則應該存放到節點`N2`上 假設 `hash(OBJECT2)=3`,由 3%5=3,可知,`Object2`則應該存放到節點`N3`上 假設 `hash(OBJECT3)=1`,由 1%5=1,可知,`Object3`則應該存放到節點`N1`上 假設 `hash(OBJECT4)=0`,由 0%5=0,可知,`Object4`則應該存放到節點`N0`上 假設 `hash(OBJECT5)=5`,由 5%5=0,可知,`Object5`則應該存放到節點`N0`上 假設 `hash(OBJECT6)=6`,由 6%5=1,可知,`Object6`則應該存放到節點`N1`上 假設 `hash(OBJECT7)=7`,由 7%5=2,可知,`Object7`則應該存放到節點`N2`上 假設 `hash(OBJECT8)=8`,由 8%5=3,可知,`Object8`則應該存放到節點`N3`上
此時為了保證資料的準確性,我們需要
將資料`Object2`從`N3`遷移到`N0`
將資料`Object5`從`N1`遷移到`N0`
將資料`Object6`從`N2`遷移到`N1`
將資料`Object7`從`N3`遷移到`N2`
將資料`Object8`從`N0`遷移到`N3`
從上述倆種情況可以看出,一旦機器數目變化,我們面臨大量的快取變化問題,換言之,快取大部分失效,很可能會導致雪崩。
2.一致性hash方案
現在我們更換如下策略
0<hash(Objectx)%8<=2 ,則存放在`N0`
2<hash(Objectx)%8<=4 ,則存放在`N1`
4<hash(Objectx)%8<=6 ,則存放在`N2`
6<hash(Objectx)%8<=8 ,則存放在`N3`
2.1 現在假設N3
忽然故障下線
我們面臨快取重新構造的問題,調整策略如下
0<hash(Objectx)%8<=2 ,則存放在`N0`
2<hash(Objectx)%8<=4 ,則存放在`N1`
4<hash(Objectx)%8<=6 ,則存放在`N2`
6<hash(Objectx)%8<=8 ,則存放在`N0`
此時為了保證資料的準確性,我們需要
將資料ObjectX
從N3
遷移到N0
,受影響的資料僅僅N3相關的資料。
2.2 現在假設我們新增一臺新的伺服器N4
我們面臨快取重新構造的問題,調整策略如下
0<hash(Objectx)%8<=2 ,則存放在`N0`
2<hash(Objectx)%8<=4 ,則存放在`N1`
4<hash(Objectx)%8<=5 ,則存放在`N2`
5<hash(Objectx)%8<=6 ,則存放在`N4`
6<hash(Objectx)%8<=8 ,則存放在`N3`
此時為了保證資料的準確性,我們需要
將資料從N2
複製到N4
,受影響的僅僅N2相關的使用者。
比較上述倆種做法,可見方案2更優. 方案2就是一致性hash
2.3 缺點
機器越少,則每臺機器上負載將越不均勻,解決這個問題的方法是新增虛擬節點,調整策略,如下,可以想象,資料越多,分佈越均勻。
0<hash(Objectx)%8<=1 ,則存放在`N0`
1<hash(Objectx)%8<=2 ,則存放在`N1`
2<hash(Objectx)%8<=3 ,則存放在`N2`
3<hash(Objectx)%8<=4 ,則存放在`N3`
4<hash(Objectx)%8<=5 ,則存放在`N0`
5<hash(Objectx)%8<=6 ,則存放在`N1`
6<hash(Objectx)%8<=7 ,則存放在`N2`
7<hash(Objectx)%8<=8 ,則存放在`N3`
3. 一致性Hash原理
原理網路上太多,這裡不