1. 程式人生 > >sharding(1):誰都能讀懂的分庫、分表、分區

sharding(1):誰都能讀懂的分庫、分表、分區

一個數 效率 存儲方式 開放 大量 har 但是 業務 相關信息

本文通過大量圖片來分析和描述分庫、分表以及數據庫分區是怎樣進行的。

1.sharding前的初始數據分布

在本文中,我打算用高考考生相關信息作為實驗數據。請無視表的字段是否符合現實,也請無視表的設計是否符合範式。

3張表:

  • 考生表,存放全國所有高考考生信息,假設34個省、(直轄)市、(自治區、特別行政)區共3000W考生
  • 學科表,分文理科,共9門課程(語文、數學、英語、歷史、地理、政治、物理、化學、生物)
  • 成績表,存過全國所有考生所有學科成績,每個學生6門成績,共1.8億條成績數據

三張表放在名為"gaokao_db"的庫中。所以,它們的結構如下:

技術分享圖片

這三張表的大致存儲方式如下:

技術分享圖片

技術分享圖片

這個時候數據存儲方式是單庫多表

2.業務分庫

業務分庫:按業務將不同表放進不同庫。每個庫可以放在不同數據庫服務器上

例如,在這裏將原始數據庫gaokao_db中的3個表分開放進兩個數據庫中,stu_db存放考生表,score_db存放成績表。

還有一張學科表放在哪呢?對於那些很小、無需進行切片的表,可以將多個這樣的表共同放在同一個庫中,也可以根據聯接特性將其分開放置在常與之進行聯接的庫中。在此處,學科表很小,沒必要單獨占用一個庫甚至數據庫服務器,且由於學科表只會和成績表進行聯接,所以將其放在score_db庫中。

業務分庫如下圖:

技術分享圖片

stu_db和score_db可以放在同一數據庫服務器上,也可以放在不同數據庫服務器上,從而在整體上減輕系統的壓力。但是,如果這兩個庫放在不同服務器上,因為跨數據庫實例,將沒法對stu_db和score_db中的表進行join操作。

一般來說,對於可預見的、不斷增長的數據,業務分庫可能最先進行的sharding。

3.垂直切分

垂直切分:將一個表按照字段分成多表,每個表存儲一部分字段。表可以放在不同存儲設備上

其實,在最初設計數據庫的時候,因為是關系型數據庫,或多或少都會去遵守一些設計範式。當設計的數據庫表滿足第一範式、第二範式、第三範式等等範式要求時,其實就已經進行了所謂的垂直切分

即使按照範式設計了數據庫表,但有些表是寬表,有很多可能很少使用的字段,這些字段可能是按照稀疏列進行管理的,也可能是大BLOB後大text字段。此外,表中的字段還可以劃分為"熱門字段和冷門字段",例如本文示例中,相比考生號、姓名、所屬地區使用頻繁程度,考生電話號碼可能很少使用、身份證號也很少使用,所以這兩個字段是冷門字段。

所以,當表數據量很大時,即使滿足了範式要求,還是可以強行將表按字段切開,將熱門字段、冷門字段分開放置在不同庫中,這些庫可以放在不同的存儲設備上,避免IO爭搶。

如下圖:

技術分享圖片

註意,垂直切分後的表,要能進行關聯,所以在此處的其它信息表中加上了考生號字段。

垂直切分其實是更深一步的範式設計,或者反範式設計。垂直切分帶來的性能提升,主要集中在熱門數據的操作效率上,而且磁盤爭用情況減少。但如果想要將兩個表中的數據再次聯合起來,性能將比垂直切分前差的多。

另外,有很多人將業務分庫當作垂直切分,其實這都不重要,重要的是知道各種手段是幹嘛的。不過在本文以及我後面的文章,將認為業務分庫和垂直切分是不同sharding的分類。

4.水平切分

水平切分:將大表按條件切分到不同表中。每個表存儲一部分滿足條件的行

水平切分通常有幾種常用的切分方式:

  1. 直接按字段條件切分
  2. 取模後切分
  3. 按月份、季度、年份切分,或者稱之為按範圍切分

水平切分對性能提升非常大,不僅可以避開服務器資源爭用,還減小了索引大小以及每個庫維護的表數據量。

4.1 按字段條件進行切分

例如本文的示例中,按照考生所屬地區對考生表進行水平切分,這是按照字段條件進行切分。

如下圖,因為有34個省、市、區,所以分成34個考生表,每個考生表都放在地區命名的庫中。各庫可放在同一數據庫服務器,也可以放在不同數據庫服務器。例如,某些省市區的考生數量少,可以將多個這樣的庫放在同一個數據庫服務器上,而山東、江西等高考大省,因為考生數量多,可以單獨放在同一個數據庫服務器上。

技術分享圖片

技術分享圖片

註意上述按字段條件進行水平切分時,表名不變,創建新的按地區命名的庫,將各地區的表放置在對應的庫中

通常,按照字段條件進行水平卻分時,其它表也很有可能也按這個條件進行切分,使得滿足條件的表都放在同一個庫中,這樣能保證正常的join操作

例如,上面切分了考生表,還可以切分成績表,讓同一個地區的考生表、成績表放在同一個庫中(所以,不能將考生表、成績表進行業務分庫)。

技術分享圖片

技術分享圖片

這樣切分後,整個數據的分布情況如下:

技術分享圖片

4.2 按範圍進行切分

對於上面的成績表,如果在此之前已經進行了業務分庫,就無法讓成績表、考生表同時按照地區進行水平切分。這時可以進行範圍切分,最常見的範圍切分是按月份、季度、年份進行切分。

例如,本文示例的成績表,可以按考生號範圍切片,可按考生號取模後切片,也可按學科類別切片。例如,按考生號範圍切片,每張表500W考生共3000W條成績數據,共切成6片。

技術分享圖片

技術分享圖片

註意按照範圍(或者取模、年份、月份、季度等)切片後,數據庫的命名。這些庫可以放在同一個數據庫服務器上,也可以放在不同數據庫服務器上。

如果對成績表按照範圍(或者取模、年份、月份、季度等)切片後,最好對考生表也按照同樣的切分方式進行切片。舉個反例很容易理解,這裏的成績表按照範圍切分了,但是考生表按照地區切分,這兩類庫的名稱之間將失去對應關系,對於數據維護來說可能會增加很大的難度。

按照這種模式的水平切分後,整個數據的分布情況如下(假設考生表也按範圍切片):

技術分享圖片

4.3 取模切分

取模是對數值或能轉換為數值的字段進行取模,要切分成幾片,就除幾。

例如,按照取模切分的方式,將本文的考生表切分成6片。於是:

00000001 % 6 = 1   --> 放進stu_1庫
00000002 % 6 = 2   --> 放進stu_2庫
00000003 % 6 = 3   --> 放進stu_3庫
00000004 % 6 = 4   --> 放進stu_4庫
00000005 % 6 = 5   --> 放進stu_5庫
00000006 % 6 = 0   --> 放進stu_0庫
...
00000101 % 6 = 5   --> 放進stu_5庫
00000102 % 6 = 0   --> 放進stu_0庫
00000103 % 6 = 1   --> 放進stu_1庫
00000104 % 6 = 2   --> 放進stu_2庫
00000105 % 6 = 3   --> 放進stu_3庫
00000106 % 6 = 4   --> 放進stu_4庫
...

註意,取模切片後的表名仍然為考生表,這些考生表放在對應的庫裏,這些庫可以單獨放在一個數據庫服務器上,也可以多個庫一起放在同一個數據庫服務器上。

5.數據庫分區

數據庫分區:將大表進行分區,不同分區可以放置在不同存儲設備上,這些分區在邏輯上組成一個大表,對客戶端透明

  1. 分區方式和水平切片是類似的,分區方式也和水平切片方式類似,如範圍切片,取模切片等
  2. 數據庫分區是數據庫自身的特性,切片則是外部強制手段控制完成的
  3. 數據庫分區無法將分區跨庫,更不能跨數據庫服務器,但能保存在不同數據文件從而放置在不同存儲設備上
  4. 數據庫分區是數據庫的特性,數據完整性、一致性等實現起來很方便,這一切都是數據庫自身保證的

例如,對考生表按照地區進行分區。

技術分享圖片

在數據庫切片流行之前,對大表的處理方式就是劃分分區表。數據庫分區相比於切片,最大的缺點在於無法跨庫、跨服務器,所以在某些方面的壓力得到不緩解。

sharding(1):誰都能讀懂的分庫、分表、分區