1. 程式人生 > >分散式資料庫資料一致性原理說明與實現

分散式資料庫資料一致性原理說明與實現

前言

分散式資料庫的資料一致性管理是其最重要的核心技術之一,也是保證分散式資料庫滿足資料庫最基本的ACID特性中的 “一致性”(Consistency)的保障。在分散式技術發展下,資料一致性的解決方法和技術也在不斷的演進,本文就以作者實際研發的分散式資料庫作為案例,介紹分散式資料庫資料一致性的原理以及實際實現。

1.資料一致性

1.1資料一致性是什麼

大部份使用傳統關係型資料庫的DBA在看到“資料一致性”時,第一反應可能都是資料在跨表事務中的資料一致性場景。但是本文介紹的“資料一致性”,指的是“資料在多份副本中儲存時,如何保障資料的一致性”場景。

由於在大資料領域,資料的安全不再由硬體來保證,而是通過軟體手段,通過同時將資料寫入到多個副本中,來確保資料的安全。資料庫在同時向多個副本寫入記錄時,如何確保每個副本資料一致,稱為“資料一致性”。

1.2關係型資料庫如何保障資料一致性

傳統的關係型資料庫對於執行環境--硬體要求都比較高,例如Oracle會建議使用者使用小型機+共享儲存作為資料庫的執行環境,DB2 DPF也同樣建議使用者採用更好的伺服器+高階儲存來搭建資料庫的執行環境。所以在資料儲存安全的技術要求下,傳統關係型資料庫更多是依賴硬體的技術來保障資料的安全性。


因為關係型資料庫的資料安全是基於硬體來保障,並且資料也不會通過同時儲存多份來保障資料的安全,所以關係型資料庫的使用者預設認為資料儲存是一致的。

1.3分散式儲存如何保障資料一致性

本文在討論分散式儲存時,主要指的是大資料產品中的分散式檔案系統和分散式資料庫,例如:SequoiaDB和HDFS。

使用者在搞明白分散式儲存的資料一致性原理時,必須要先明白為什麼他們就需要資料一致性,和分散式儲存的資料儲存與關係型資料庫的資料儲存又有什麼區別。

大資料技術的誕生,確確實實讓系統的效能有新的突破,並且支援硬體以水平擴充套件的方式來獲得線性增長的效能和儲存。這些都是過去傳統關係型資料庫所無法提供的。另外,大資料技術也拋棄了執行環境必須足夠好的硬性要求,而是允許使用者通過批量廉價X86伺服器+本地磁碟的方式搭建規模叢集,從而獲得比過去依賴硬體垂直擴充套件所提供的更強的計算能力和更多的儲存空間。

大資料技術的核心思想就是分散式,將一個大的工作任務分解成多個小任務,然後通過分散式併發操作的方式將其完成,從而提高整個系統的計算效率或者是儲存能力。而在分散式環境下,由於硬體的要求降低,必然需要大資料產品提供另外一個重要的功能--資料安全。


大資料產品在解決資料安全的方式上,都比較接近,簡單來說,就是讓一份資料通過非同步或者同步的方式儲存在多臺機器上,從而保障資料的安全。


分散式儲存在解決資料安全的技術難點後,又引入了一個新的技術問題,就是如何保障多個副本中的資料一致性。目前SequoiaDB是使用Raft演算法來保證資料在多個副本中一致性。

2.Raft演算法

2.1Raft演算法背景

在分散式環境下,最著名的一致性演算法應該是Paxos演算法,但是由於它實在過於晦澀難懂,並且實現起來極度困難,所以在2013年,Diego Ongaro、John Ousterhout兩個人以易懂(Understandability)為目標設計了一套一致性演算法Raft。Raft演算法最大的特點在於簡單易懂,並且實現起來簡單

2.2Raft演算法概述

與Paxos不同,Raft強調的是易懂,Raft和Paxos一樣只要保證n/2+1節點正常就能夠提供服務。

眾所周知當問題較為複雜時可以把問題分解為幾個小問題來處理,Raft也使用了分而治之的思想。Raft演算法重點解決三個子問題:選舉(Leader election)、日誌複製(Log replication)、安全性(Safety)。

Raft演算法強化了Leader節點的功能,Follower節點的資料只能夠從Leader中獲取,所以Follower節點的實現就變得簡單,只要負責和Leader保持通訊,並且接受Leader推送的資料即可。

2.3Raft演算法原理

2.3.1  節點角色

Raft演算法中,對節點的狀態分為3種角色,分別是Leader(領導者)、Follower(追隨者)和Candidate(候選者)。

Leader,負責處理來自客戶端的請求,負責將日誌同步到Follower中,並且保證與Follower之間的heartBeat聯絡;

Follower,當叢集剛剛啟動時,所有節點均為Follower狀態,它的工作主要為響應Leader的日誌同步請求,響應Candidate的請求,以及把請求到Follower的事務請求轉發給Leader;

Candidate,選舉Leader時負責投票,選舉出來Leader後,節點將從Candidate狀態變為Leader狀態。


2.3.2  Terms

在分散式環境下,“時間同步”一直都是老大難的技術難題。Raft為了解決這個問題,將時間劃分為一個一個的Term(可以理解為“邏輯時間”)來處理在不同時間段裡的資料一致性。

Terms有以下原則

1      每個Term中,至多存在一個Leader

2      某些Term中,有可能存在由於選舉失敗,沒有Leader的情況

3      每個節點自己維護本地的currentTerm

4      每個Term都是一個連續遞增的編號

5      如果Follower的Term編號比別的Follower Term編號小時,該Follower Term編號將更新Term編號,以保持與其他Follower Term編號一致

2.3.3  選舉

Raft的選舉由定時器觸發,每個節點的觸發時間都不相同。

所有的節點在開始時狀態都為Follower,當定時器觸發選舉後Term編號遞增,該節點的狀態由Follower轉為Candidate,並且向其他節點發起RequestVote RPC請求,這時選舉有3種情況可能發生:

1      發起RequestVote的節點收到n/2+1(過半數)個節點的投票,該節點將從Candidate狀態變為Leader狀態,開始向其他節點發送HeartBeat以保持Leader的正常狀態

2      如果收到投票請求後,該節點發現發起投票的節點Term大於自己,則該節點狀態從Candidate轉為Follower,否則保持Candidate狀態,並且拒絕該投票請求

3      選舉期間發生了超時,則Term編號遞增,重新發起選舉

 

2.3.4  日誌複製

日誌複製主要的作用就是用來保證節點的資料一致性與高可用性。

當Leader被選舉出來後,所有的事務操作都必須要經過Leader處理。這些事務操作成功後,將會被按順序寫入到LOG中,每個LOG都包含一個index編號。

Leader在LOG發生變化後,通過HeartBeat將新的LOG同步到Follower上,Follower在接收到LOG後,再向Leader傳送ACK資訊,當Leader接到大多數(2/n+1)Follower的ACK資訊後,將該LOG設定為已提交,並且Leader將LOG追加到本地磁碟中。

同時Leader將在下一個HeartBeat中,通知所有的Follower將該LOG儲存在各自的本地磁碟中。

2.3.5  安全性

安全性是用於確保每個節點都是按照相同的日誌序列進行執行的安全機制。

如果當某個Follower在同步Leader的日誌時失敗,但是未來該Follower又可能被選舉為Leader時,就有可能導致前一個Leader已經commit的日誌發生覆蓋,這樣就導致了節點執行不同序列的日誌。

Raft的安全性就是用於保證選舉出來的Leader一定包含先前已經commit LOG 的機制,主要遵循的原則如下:

1      每個Term 只能選舉一個Leader;

2      Leader的日誌完整性,則當Candidate重新選舉Leader時,新的Leader必須要包含先前已經commit的LOG;

3     Candidate在選舉新的Leader時,使用Term來保證LOG的完整性;

3.分散式資料庫資料一致性技術實現

以國產原廠的分散式資料庫SequoiaDB為例,SequoiaDB在多副本的部署中,採用Raft演算法保證資料在多副本環境中保持一致。

SequoiaDB叢集中,總共包含3中角色節點,分別是協調節點、編目節點和資料節點。由於協調節點本身不存任何資料,所以只有編目節點和資料節點存在事務操作,換言之,編目分割槽組和資料分割槽組的副本同步採用Raft演算法保證資料一致性。


3.1編目節點和資料節點的事務日誌介紹

編目節點和資料節點由於都是需要儲存資料的,並且在叢集部署中該,為了確保資料的安全,都是建議採用分散式的方式進行部署,所以在資料同步中,需要採用Raft演算法的基本原理進行資料同步。

編目節點和資料節點在儲存資料時,共包含兩大部分,一個真實的資料檔案,另一個是事務日誌檔案。


SequoiaDB的節點事務日誌,預設情況下由20個64MB(總大小為1.25GB)的檔案構成。節點的事務日誌主要包含一個index編號和資料操作內容,index編號保持永遠遞增狀態。

另外,SequoiaDB節點的事務日誌不會永久儲存,而是當所有的事務日誌寫滿後,再重新從第一個檔案開始進行覆蓋寫入。

3.2編目分割槽組的資料一致性

由於編目分割槽組是儲存SequoiaDB叢集的元資訊,資料同步要求高,所以編目分割槽組的資料一致性要求為強一致性,即每次向編目分割槽組執行事務操作時,必須要確保所有的編目節點操作成功,才計算該操作執行成功,否則該事務操作將在整個編目分割槽組中回退事務日誌,以保證分割槽組內的資料一致性。

另外,編目分割槽組還有一個比較重要的特性,即編目分割槽組必須要存在主節點才能夠正常工作,如果老的主節點宕機了,編目分割槽組暫時沒有主節點,則該編目分割槽組不能夠對外提供任何事務操作和資料查詢操作。

3.3資料分割槽組的資料一致性

資料分割槽組的資料一致性預設情況下為最終一致性性,即只要求主節點執行事務操作成功即視為操作成功,主節點將在未來非同步同步ReplicaLOG到從節點上。

3.4主從節點的事務日誌同步

SequoiaDB的主從節點是通過事務日誌同步來保證資料一致性的,並且主從節點的事務日誌同步是單執行緒完成。

如果當主節點和從節點的LSN差距為一條記錄,則主節點會主動將最新的事務日誌推送給從節點。

如果主節點和從節點的LSN差距超過一條記錄,則從節點會主動向主節點請求同步事務日誌,主節點收到同步請求後,會將從節點的LSN號到主節點最新的LSN號對應的事務日誌打包一次性發送給從節點。 

3.5從節點日誌重放

當從節點獲取到主節點推送過來的事務日誌後,就會自動解析事務日誌和重放。從節點在重放事務日誌時,預設情況下會以10併發來重放事務日誌。

從節點在執行併發重放日誌時有條件限制,即在集合的唯一索引個數<=1的情況下,INSERT、DELETE、UPDATE、LOB WRITE、LOBUPDATE、LOB REMOVE操作可以支援併發重放事務日誌。從節點在做併發重放時,是通過記錄的OID進行打散併發執行,這樣就可以保證對相同記錄的操作不會由於併發重放導致資料不一致。

但是使用者需要注意,從節點在重放事務日誌時, DROP CL操作不能夠支援併發重放。

4.SequoiaDB資料一致性應用

目前SequoiaDB資料分割槽組的資料一致性是基於集合級別進行配置的。使用者在使用SequoiaDB過程中,可以隨時調整資料一致性的強度。

4.1 建立集合時指定

在一個多副本的SequoiaDB叢集中,集合預設的資料一致性行級別為“最終一致性”。使用者可以在建立集合時顯式指定該集合的“資料一致性強度”,例如可以在SequoiaDB Shell中執行以下命令

db.CSNAME.createCL("CLNAME",{ReplSize:3})

ReplSize引數填寫範圍

數值

引數說明

-1

代表彈性強一致性;

例如副本數為3,當所有的副本節點都正常執行時,資料庫將確保資料同時成功寫入3個副本中才提交該事務日誌;

如果其中一個節點宕機,但是該資料分割槽組中仍然存在主節點,則資料庫需要確保資料同時成功寫入2個副本中才提交事務日誌。

0

代表強一致性;

例如副本數為3,當所有的副本節點都正常執行時,資料庫將確保資料同時成功寫入3個副本中才提交該事務日誌;

如果其中一個節點宕機,但是該資料分割槽組中仍然存在主節點,則資料庫仍然需要確保資料同時成功寫入3個副本中才提交事務日誌,所以當分割槽組中存在宕機節點,則該資料分割槽組無法寫入新的記錄。

1-7

1-7數值代表分割槽組中寫入記錄時,應該確保寫入到多少個節點中,才可以提交該事務日誌,否則認為該事務操作失敗,另外,如果填寫的數值大於資料分割槽組所有的節點數目,則以資料分割槽組的最大節點數目為生效RepliSize值,但是在資料庫SDB_SNAP_CATALOG快照中依然顯式使用者填寫的ReplSize資料。

4.2 修改已經存在的集合

如果集合在建立時沒有設定“資料一致性”ReplSize引數,使用者也可以對已經存在的集合進行修改,在SequoiaDB Shell修改命令如下

db.CSNAME.CLNAME.alter({ReplSize:3})

ReplSize的取值範圍和建立集合時一致。

4.3 如何檢視集合的ReplSize引數

如果使用者希望檢查當前集合的RepliSize引數值,可以通過資料庫快照進行檢視,在SequoiaDB Shell檢視命令如下

db.snapshot(SDB_SNAP_CATALOG,{}, {"Name":null, "IsMainCL":null,"MainCLName":null, "ReplSize":null})

列印資訊如下

{

  "MainCLName":"test.main2",

  "Name": "foo.bar2",

  "IsMainCL": null,

  "ReplSize": null

}

{

  "IsMainCL": true,

  "Name": "test.main2",

  "MainCLName": null,

  "ReplSize": null

}

{

  "Name": "foo.tt",

  "ReplSize": 3,

  "IsMainCL": null,

  "MainCLName": null

}

5. 總結

分散式的資料庫,通過Raft演算法來確保在分散式情況上資料的一致性,並且編目分割槽組和資料分割槽組對資料一致性要求又有所不同,編目分割槽組始終要求的是資料在多副本請情況下資料強一致性,而資料分割槽組則可以由使用者在建立集合時來執行資料一致性的強度,強度越高,資料安全性越好,但是執行的效率就會相對較差,反之依然。

目前SequoiaDB在資料一致性場景上,使用者的調整空間較大,可以根據不同的業務要求來調整資料一致性的強度,以滿足業務或追求效能最優,或者資料最安全的技術要求。

是業界領先的新一代分散式資料庫產品,功能上包括了分散式OLTP,分散式物件儲存以及分散式NoSQL實現全型別資料的覆蓋。SequoiaDB為使用者提供高效能、靈活儲存、實時與可擴充套件等企業級資料庫能力。