1. 程式人生 > >B-/B+樹 MySQL索引結構

B-/B+樹 MySQL索引結構

數據庫系統 b+ -o 不同之處 區間 因此 旋轉 alt nor

B-樹

B-樹,這裏的 B 表示 balance( 平衡的意思),B-樹是一種多路自平衡的搜索樹
它類似普通的平衡二叉樹,不同的一點是B-樹允許每個節點有更多的子節點。下圖是 B-樹的簡化圖.

技術分享圖片

B-樹有如下特點:

  1. 所有鍵值分布在整顆樹中;

  2. 任何一個關鍵字出現且只出現在一個結點中;

  3. 搜索有可能在非葉子結點結束;

  4. 在關鍵字全集內做一次查找,性能逼近二分查找;

B+ 樹

B+樹是B-樹的變體,也是一種多路搜索樹, 它與 B- 樹的不同之處在於:

  1. 所有關鍵字存儲在葉子節點出現,內部節點(非葉子節點並不存儲真正的 data)

  2. 為所有葉子結點增加了一個鏈指針

簡化 B+樹 如下圖

技術分享圖片

為什麽使用B-/B+ Tree

紅黑樹等數據結構也可以用來實現索引,但是文件系統及數據庫系統普遍采用B-/+Tree作為索引結構。MySQL 是基於磁盤的數據庫系統,索引往往以索引文件的形式存儲的磁盤上,索引查找過程中就要產生磁盤I/O消耗,相對於內存存取,I/O存取的消耗要高幾個數量級,索引的結構組織要盡量減少查找過程中磁盤I/O的存取次數。為什麽使用B-/+Tree,還跟磁盤存取原理有關。

局部性原理與磁盤預讀

由於磁盤的存取速度與內存之間鴻溝,為了提高效率,要盡量減少磁盤I/O.磁盤往往不是嚴格按需讀取,而是每次都會預讀,磁盤讀取完需要的數據,會順序向後讀一定長度的數據放入內存。而這樣做的理論依據是計算機科學中著名的局部性原理:

當一個數據被用到時,其附近的數據也通常會馬上被使用
程序運行期間所需要的數據通常比較集中

由於磁盤順序讀取的效率很高(不需要尋道時間,只需很少的旋轉時間),因此對於具有局部性的程序來說,預讀可以提高I/O效率.預讀的長度一般為頁(page)的整倍數。

MySQL(默認使用InnoDB引擎),將記錄按照頁的方式進行管理,每頁大小默認為16K(這個值可以修改).linux 默認頁大小為4K

B-/+Tree索引的性能分析

實際實現B-Tree還需要使用如下技巧:
每次新建節點時,直接申請一個頁的空間,這樣就保證一個節點物理上也存儲在一個頁裏,加之計算機存儲分配都是按頁對齊的,就實現了一個結點只需一次I/O。
假設 B-Tree 的高度為 h,B-Tree中一次檢索最多需要h-1次I/O(根節點常駐內存),漸進復雜度為O(h)=O(logdN)O(h)=O(logdN)。一般實際應用中,出度d是非常大的數字,通常超過100,因此h非常小(通常不超過3)。
而紅黑樹這種結構,h明顯要深的多。由於邏輯上很近的節點(父子)物理上可能很遠,無法利用局部性,所以紅黑樹的I/O漸進復雜度也為O(h),效率明顯比B-Tree差很多。

為什麽使用 B+樹

  1. B+樹更適合外部存儲,由於內節點無 data 域,一個結點可以存儲更多的內結點,每個節點能索引的範圍更大更精確,也意味著 B+樹單次磁盤IO的信息量大於B-樹,I/O效率更高。

  2. Mysql是一種關系型數據庫,區間訪問是常見的一種情況,B+樹葉節點增加的鏈指針,加強了區間訪問性,可使用在範圍區間查詢等,而B-樹每個節點 key 和 data 在一起,則無法區間查找。

原文鏈接:https://segmentfault.com/a/1190000004690721

B-/B+樹 MySQL索引結構