1. 程式人生 > >什麼是高可用HA(High Availability)“腦裂"

什麼是高可用HA(High Availability)“腦裂"

奮鬥

在涉及到高可用性時,經常會聽到”腦裂“,到底啥是”腦裂“?

一句話:當兩(多)個節點同時認為自已是唯一處於活動狀態的伺服器從而出現爭用資源的情況,這種爭用資源的場景即是所謂的“腦裂”(split-brain)或”區間叢集“(partitioned cluster)。

--------------

HeartBeat原理:

HeartBeat運行於備用主機上的Heartbeat可以通過乙太網連線檢測主伺服器的執行狀態,一旦其無法檢測到主伺服器的"心跳"則自動接管主伺服器的資源。通常情況下,主、備伺服器間的心跳連線是一個獨立的物理連線,這個連線可以是序列線纜、一個由"交叉線"實現的乙太網連線。Heartbeat甚至可同時通過多個物理連線檢測主伺服器的工作狀態,而其只要能通過其中一個連線收到主伺服器處於活動狀態的資訊,就會認為主伺服器處於正常狀態。從實踐經驗的角度來說,建議為Heartbeat配置多條獨立的物理連線,以避免Heartbeat通訊線路本身存在單點故障。

--------------

      在“雙機熱備”高可用(HA)系統中,當聯絡2個節點的“心跳線”斷開時,本來為一整體、動作協調的HA系統,就分裂成為2個獨立的個體。由於相互失去了聯絡,都以為是對方出了故障,2個節點上的HA軟體像“裂腦人”一樣,“本能”地爭搶“共享資源”、爭起“應用服務”,就會發生嚴重後果:或者共享資源被瓜分、2邊“服務”都起不來了;或者2邊“服務”都起來了,但同時讀寫“共享儲存”,導致資料損壞(常見如資料庫輪詢著的聯機日誌出錯)。
運行於備用主機上的Heartbeat可以通過乙太網連線檢測主伺服器的執行狀態,一旦其無法檢測到主伺服器的“心跳”則自動接管主伺服器的資源。通常情況下,主、備伺服器間的心跳連線是一個獨立的物理連線,這個連線可以是序列線纜、一個由“交叉線”實現的乙太網連線。Heartbeat甚至可同時通過多個物理連線檢測主伺服器的工作狀態,而其只要能通過其中一個連線收到主伺服器處於活動狀態的資訊,就會認為主伺服器處於正常狀態。從實踐經驗的角度來說,建議為Heartbeat配置多條獨立的物理連線,以避免Heartbeat通訊線路本身存在單點故障。
1、序列電纜:被認為是比乙太網連線安全性稍好些的連線方式,因為hacker無法通過序列連線執行諸如telnet、ssh或rsh類的程式,從而可以降低其通過已劫持的伺服器再次侵入備份伺服器的機率。但序列線纜受限於可用長度,因此主、備伺服器的距離必須非常短。
2、乙太網連線:使用此方式可以消除序列線纜的在長度方面限制,並且可以通過此連線在主備伺服器間同步檔案系統,從而減少了從正常通訊連線頻寬的佔用。
        基於冗餘的角度考慮,應該在主、備伺服器使用兩個物理連線傳輸heartbeat的控制資訊;這樣可以避免在一個網路或線纜故障時導致兩個節點同時認為自已是唯一處於活動狀態的伺服器從而出現爭用資源的情況,這種爭用資源的場景即是所謂的“腦裂”(split-brain)或“partitioned cluster”。在兩個節點共享同一個物理裝置資源的情況下,腦裂會產生相當可怕的後果。
        為了避免出現腦裂,可採用下面的預防措施:
新增冗餘的心跳線,例如雙線條線。儘量減少“裂腦”發生機會。
啟用磁碟鎖。正在服務一方鎖住共享磁碟,“裂腦”發生時,讓對方完全“搶不走”共享磁碟資源。但使用鎖磁碟也會有一個不小的問題,如果佔用共享盤的一方不主動“解鎖”,另一方就永遠得不到共享磁碟。現實中假如服務節點突然宕機或崩潰,就不可能執行解鎖命令。後備節點也就接管不了共享資源和應用服務。於是有人在HA中設計了“智慧”鎖。即,正在服務的一方只在發現心跳線全部斷開(察覺不到對端)時才啟用磁碟鎖。平時就不上鎖了。
設定仲裁機制。例如設定參考IP(如閘道器IP),當心跳線完全斷開時,2個節點都各自ping一下 參考IP,不通則表明斷點就出在本端,不僅“心跳”、還兼對外“服務”的本端網路鏈路斷了,即使啟動(或繼續)應用服務也沒有用了,那就主動放棄競爭,讓能夠ping通參考IP的一端去起服務。更保險一些,ping不通參考IP的一方乾脆就自我重啟,以徹底釋放有可能還佔用著的那些共享資源。

再見