1. 程式人生 > >資料庫分庫分表(sharding)系列(二) 全域性主鍵生成策略

資料庫分庫分表(sharding)系列(二) 全域性主鍵生成策略

第一部分:一些常見的主鍵生成策略

一旦資料庫被切分到多個物理結點上,我們將不能再依賴資料庫自身的主鍵生成機制。一方面,某個分割槽資料庫自生成的ID無法保證在全域性上是唯一的;另一方面,應用程式在插入資料之前需要先獲得ID,以便進行SQL路由。目前幾種可行的主鍵生成策略有:
1. UUID:使用UUID作主鍵是最簡單的方案,但是缺點也是非常明顯的。由於UUID非常的長,除佔用大量儲存空間外,最主要的問題是在索引上,在建立索引和基於索引進行查詢時都存在效能問題。
2. 結合資料庫維護一個Sequence表:此方案的思路也很簡單,在資料庫中建立一個Sequence表,表的結構類似於:

CREATE TABLE `SEQUENCE` (
	`tablename` varchar(30) NOT NULL,
	`nextid` bigint(20) NOT NULL,
	PRIMARY KEY (`tablename`)
) ENGINE=InnoDB 
每當需要為某個表的新紀錄生成ID時就從Sequence表中取出對應表的nextid,並將nextid的值加1後更新到資料庫中以備下次使用。此方案也較簡單,但缺點同樣明顯:由於所有插入任何都需要訪問該表,該表很容易成為系統性能瓶頸,同時它也存在單點問題,一旦該表資料庫失效,整個應用程式將無法工作。有人提出使用Master-Slave進行主從同步,但這也只能解決單點問題,並不能解決讀寫比為1:1的訪問壓力問題。

除此之外,還有一些方案,像對每個資料庫結點分割槽段劃分ID,以及網上的一些ID生成演算法,因為缺少可操作性和實踐檢驗,本文並不推薦。實際上,接下來,我們要介紹的是Fickr使用的一種主鍵生成方案,這個方案是目前我所知道的最優秀的一個方案,並且經受了實踐的檢驗,可以為大多數應用系統所借鑑。

第二部分:一種極為優秀的主鍵生成策略

flickr開發團隊在2010年撰文介紹了flickr使用的一種主鍵生成測策略,同時表示該方案在flickr上的實際執行效果也非常令人滿意,原文連線:Ticket Servers: Distributed Unique Primary Keys on the Cheap 這個方案是我目前知道的最好的方案,它與一般Sequence表方案有些類似,但卻很好地解決了效能瓶頸和單點問題,是一種非常可靠而高效的全域性主鍵生成方案。


圖1. flickr採用的sharding主鍵生成方案示意圖(點選檢視大圖)

flickr這一方案的整體思想是:建立兩臺以上的資料庫ID生成伺服器,每個伺服器都有一張記錄各表當前ID的Sequence表,但是Sequence中ID增長的步長是伺服器的數量,起始值依次錯開,這樣相當於把ID的生成雜湊到了每個伺服器節點上。例如:如果我們設定兩臺資料庫ID生成伺服器,那麼就讓一臺的Sequence表的ID起始值為1,每次增長步長為2,另一臺的Sequence表的ID起始值為2,每次增長步長也為2,那麼結果就是奇數的ID都將從第一臺伺服器上生成,偶數的ID都從第二臺伺服器上生成,這樣就將生成ID的壓力均勻分散到兩臺伺服器上,同時配合應用程式的控制,當一個伺服器失效後,系統能自動切換到另一個伺服器上獲取ID,從而保證了系統的容錯。

關於這個方案,有幾點細節這裡再說明一下:

1. flickr的資料庫ID生成伺服器是專用伺服器,伺服器上只有一個數據庫,資料庫中表都是用於生成Sequence的,這也是因為auto-increment-offset和auto-increment-increment這兩個資料庫變數是資料庫例項級別的變數。
2. flickr的方案中表格中的stub欄位只是一個char(1) NOT NULL存根欄位,並非表名,因此,一般來說,一個Sequence表只有一條紀錄,可以同時為多張表生成ID,如果需要表的ID是有連續的,需要為該表單獨建立Sequence表

3. 方案使用了mysql的LAST_INSERT_ID()函式,這也決定了Sequence表只能有一條記錄。
4. 使用REPLACE INTO插入資料,這是很討巧的作法,主要是希望利用mysql自身的機制生成ID,不僅是因為這樣簡單,更是因為我們需要ID按照我們設定的方式(初值和步長)來生成。

5. SELECT LAST_INSERT_ID()必須要於REPLACE INTO語句在同一個資料庫連線下才能得到剛剛插入的新ID,否則返回的值總是0
6. 該方案中Sequence表使用的是MyISAM引擎,以獲取更高的效能,注意:MyISAM引擎使用的是表級別的鎖,MyISAM對錶的讀寫是序列的,因此不必擔心在併發時兩次讀取會得到同一個ID(另外,應該程式也不需要同步,每個請求的執行緒都會得到一個新的connection,不存在需要同步的共享資源)。經過實際對比測試,使用一樣的Sequence表進行ID生成,MyISAM引擎要比InnoDB表現高出很多!

7. 可使用純JDBC實現對Sequence表的操作,以便獲得更高的效率,實驗表明,即使只使用Spring JDBC效能也不及純JDBC來得快!

實現該方案,應用程式同樣需要做一些處理,主要是兩方面的工作:


1. 自動均衡資料庫ID生成伺服器的訪問
2. 確保在某個資料庫ID生成伺服器失效的情況下,能將請求轉發到其他伺服器上執行。

相關閱讀: