InnoDB索引實現原理以及注意點和建議

阿新 • • 發佈：2020-01-08

一、InnoDB實現原理

雖然InnoDB也使用B+Tree作為索引結構，但具體實現方式卻與MyISAM截然不同。因為InnoDB支援聚簇索引（主鍵索引），聚簇索引就是表，所以InnoDB不用像MyISAM那樣需要獨立的行儲存。也就是說，InnoDB的資料檔案本身就是索引檔案。

聚簇索引的每一個葉子節點都包含了主鍵值、事務ID、用於事務和MVCC的回滾指標以及所有的剩餘列。假設我們以col1為主鍵，則下圖是一個InnoDB表的聚簇索引（主鍵索引）（Primary key）示意。

與MyISAM不同的是，InnoDB的二級索引和聚簇索引很不相同。InnoDB的二級索引的葉子節點儲存的不是行號（行指標），而是主鍵列。這種策略的缺點是二級索引需要兩次索引查詢，第一次在二級索引中查詢主鍵，第二次在聚簇索引中通過主鍵查詢需要的資料行。

畫外音：可以通過我們前面提到過的索引覆蓋來避免回表查詢，這樣就只需要一次回表查詢，對於InnoDB而言，就是隻需要一次索引查詢就可以查詢到需要的資料記錄，因為需要的資料記錄已經被索引到二級索引中，直接就可以找到。

因為InnoDB的索引的方式通過主鍵聚集資料，嚴重依賴主鍵。索引如果沒有定義主鍵，那麼InnoDB會選擇一個唯一的非空索引代替。如果沒有這樣的索引，InnoDB會隱式定義一個主鍵來作為聚簇索引。

二、優缺點

優點
1. 可以把相關資料儲存在一起，減少資料查詢時的磁碟I/O
2. 資料訪問更快，因為聚簇索引就是表，索引和資料儲存在一個B+Tree中
3. 使用索引覆蓋的查詢時可以直接使用頁節點中的主鍵值
缺點
1. 插入速度嚴重依賴插入順序
2. 更新聚簇索引列的代價很高，因為會強制InnoDB把更新的列移動到新的位置
3. 基於聚簇索引的表在插入新行，或者主鍵被更新導致需要移動行的時候，可能會導致“頁分裂”。當行的主鍵值要求必須將這一行插入到已滿的頁中時，儲存引擎會將該頁分裂為兩個頁面來容納該行，這就是一次頁分裂操作，頁分裂會導致表佔用更多的儲存空間。
```
畫外音：關於頁，我們在上一篇文章中也提到過。頁是計算機管理儲存器的邏輯塊，硬體及作業系統往往將主存和磁碟儲存區分割為連續的
大小相等的塊，每個儲存塊稱為一頁。存和磁碟以頁為單位交換資料。資料庫系統的設計者巧妙利用了磁碟預讀原理，將一個節點的大小設
為等於一個頁，這樣每個節點只需要一次磁碟I/O就可以完全載入
 
```
基於聚簇索引以上的這些特點，在InnoDB中，我們應該儘量使用和應用無關的主鍵，例如自增主鍵，這樣可以保證資料行是按照順序寫入的。而不是使用GUID、UUID生成隨機的主鍵。

三、注意&建議

主鍵推薦使用整型，避免索引分裂；
查詢使用索引覆蓋能夠提升很大的效能，因為避免了回表查詢
選擇合適的順序建立索引，有的場景並非區分度越高的欄位放在前邊越好，聯合索引使用居多
合理使用in操作將範圍查詢轉換成多個等值查詢，但是如果有order by 不同的列來說是不會走索引的
大批量資料查詢任務分解為分批查詢
將複雜查詢轉換為簡單查詢
合理使用inner join，比如分頁的時候

四、一些問題的分析

索引分裂個人理解：在 MySQL插入記錄的同時會更新配置的相應索引檔案，根據以上的瞭解，在插入索引時，可能會存在索引的頁的分裂，因此會導致磁碟資料的移動。當插入的主鍵是隨機字串時，每次插入不會是在B+樹的最後插入，每次插入位置都是隨機的，每次都可能導致資料頁的移動，而且字串的儲存空間佔用也很大，這樣重建索引不僅僅效率低而且 MySQL的負載也會很高，同時還會導致大量的磁碟碎片，磁碟碎片多了也會對查詢造成一定的效能開銷，因為儲存位置不連續導致更多的磁碟I/O,這就是為什麼推薦定義主鍵為遞增整型的一個原因
自增主鍵的弊端對於高併發的場景，在InnoDB中按照主鍵的順序插入可能會造成明顯的爭用，主鍵的上界會成為“熱點”，因為所有的插入都發生在此處，索引併發的插入可能會造成間隙鎖競爭，何為間隙鎖競爭，下個會詳細介紹；另外一個原因可能是Auto_increment的鎖機制，在 MySQL處理自增主鍵時，當innodb_autoinc_lock_mode為0或1時，在不知道插入有多少行時，比如insert t1 xx select xx from t2，對於這個statement的執行會進行鎖表，只有這個statement執行完以後才會釋放鎖，然後別的插入才能夠繼續執行，但是在innodb_autoinc_lock_mode=2時，這種情況不會存在表鎖，但是隻能保證所有併發執行的statement插入的記錄是唯一併且自增的，但是每個statement做的多行插入之間是不連線的
優化器不使用索引選擇全表掃描比如一張order表中有聯合索引(order_id, goods_id)，在此例子上來說明這個問題是從兩個方面來說：
1. 查詢欄位在索引中
```
select order_id from order where order_id > 1000;
--如果檢視其執行計劃的話，發現是用use index condition,走的是索引覆蓋。
```
1. 查詢欄位不在索引中
```
select * from order where order_id > 1000;
```
此條語句查詢的是該表所有欄位，有一部分欄位並未在此聯合索引中，因此走聯合索引查詢會走兩步，首先通過聯合索引確定符合條件的主鍵id,然後利用這些主鍵id再去聚簇索引中去查詢，然後得到所有記錄，利用主鍵id在聚簇索引中查詢記錄的過程是無序的，在磁碟上就變成了離散讀取的操作，假如當讀取的記錄很多時（一般是整個表的20%左右），這個時候優化器會選擇直接使用聚簇索引，也就是掃全表，因為順序讀取要快於離散讀取，這也就是為何一般不用區分度不大的欄位單獨做索引，注意是單獨因為利用此欄位查出來的資料會很多，有很大概率走全表掃描。
範圍查詢之後的條件不走索引根據 MySQL的查詢原理的話，當處理到where的範圍查詢條件後，會將查詢到的行全部返回到伺服器端（查詢執行引擎），接下來的條件操作在伺服器端進行處理，這也就是為什麼範圍條件不走索引的原因了，因為之後的條件過濾已經不在儲存引擎完成了。但是在 MySQL 5.6以後假如了一個新的功能index condition pushdown(ICP),這個功能允許範圍查詢條件之後的條件繼續走索引，但是需要有幾個前提條件：
1. 查詢條件的第一個條件需要時有邊界的，比如select * from xx where c1=x and c2>x and c3<x,這樣c3是可以走到索引的；
2. 支援InnoDB和MyISAM儲存引擎；
3. where條件的欄位需要在索引中；
4. 分表ICP功能5.7開始支援；
5. 使用索引覆蓋時，ICP不起作用。
分頁offset值很大效能問題
在 MySQL中，分頁當offset值很大的時候，效能會非常的差，比如limit 100000, 20，需要查詢100020條資料，然後取20條，拋棄前100000條，在這個過程中產生了大量的隨機I/O,這是效能很差的原因，為了解決這個問題，切入點便是減少無用資料的查詢，減少隨機I/O
1. 利用inner join
```
select * from t1 inner join (select id from t1 where xxx order by xx limit 1000000,5) as t2 using(id);
--子查詢先走索引覆蓋查得id,然後根據得到的id直接取5條得資料。
```
1. 利用範圍查詢條件來限制取出的資料
```
select * from t1 where id > 1000000 order by id limit 0, 5;
--即利用條件id > 1000000在掃描索引是跳過1000000條記錄，然後取5條即可,這種處理方式的offset值便成為0了，但此種方式通常分頁不能用，但是可以用來分批取資料。
```
相關推薦

InnoDB索引實現原理以及注意點和建議

一、InnoDB實現原理雖然InnoDB也使用B+Tree作為索引結構，但具體實現方式卻與MyISAM截然不同。因為InnoDB支援聚簇索引（主鍵索引），聚簇索引就是表，所以InnoDB不用像MyISAM那樣需要獨立的行儲存。也就是說，InnoDB的資料檔案本身就是索引檔案。聚簇索引的每一個葉子節點都包含

資料庫索引實現原理以及SQL優化技巧

mysql資料庫的索引的實現方式（ B-Tree和B+Tree 這裡以mysql資料庫為例) 關於B樹和B+樹請參考關於B樹的一些總結，這篇文章介紹的比較詳細，同時容易理解。目前大部分資料庫系統及檔案系統都採用B-Tree或其變種B+Tree作為索引結構，在本文的

資料庫索引的實現原理以及優缺點

資料庫索引，在資料庫管理系統中是一個排序形式的資料結構，以協助快速查詢和更新資料庫表中資料。索引的實現通常使用B樹及其變種B+樹。那麼為什麼要用B+樹來實現索引而不使用二叉搜尋樹或者平衡樹或者紅黑樹呢？要知道原因首先需要了解B樹的性質：一個 m 階的B樹滿足以下條件：

C庫：rand和srand的實現原理以及C庫中原始碼

一、rand和srand的使用示例博主前言：對rand和srand函式使用熟練的人，這步可直接跳過不看。 1.程式碼示例1和執行結果 //只有rand，沒有srand生成隨機種子 #in

ArrayList和linkedList底層實現原理以及區別？

ArrayList 先說說Arraylist，Arraylist是基於動態陣列實現的，所以查詢速度快，但是增刪操作的速度會比較慢，但是為什麼會這樣？我解釋一下動態陣列，基本就可以明白這個問題了。先說說靜態陣列是怎麼來儲存資料的，當我們使用new來建立一個數組，實際上是在

SOCKET中send和recv函式工作原理與注意點

send函式工作原理： send函式只負責將資料提交給協議層。當呼叫該函式時，send先比較待發送資料的長度len和套接字s的傳送緩衝區的長度，如果len大於s的傳送緩衝區的長度，該函式返回SO

MyISAM和InnoDB索引實現的不同

MyISAM引擎使用B+Tree作為索引結構，葉節點的data域存放的是資料記錄的地址。下圖是MyISAM索引的原理圖：這裡設表一共有三列，假設我們以Col1為主鍵，則上圖是一個MyISAM表的主索引（Primary key）示意。可以看出MyISAM的索引檔案僅

JavaScript，Node.js 巢狀非同步呼叫的實現以及注意點

前言使用Node.js實現伺服器端時，需要處理不少的非同步請求。有些時候，我們會遇到這種情況：對於某個數組裡面的字串，你需要依次地通過非同步呼叫的方法向資料庫請求資料，即，我先用第一個字串提交請求，然後在回撥函式中用第二個字串提交請求，以此類推，我們

(9)launcher3 之外部更換主題Theme APP demo 實現原理以及demo

解壓 work ace fontsize 思路 con 鎖屏解壓文件夾更新先說下我的思路： luancher3裏面更換圖標的邏輯例如以下：先從APP資源包裏查詢--數據庫查詢--其它地方查詢ICON 因此，我們僅僅須要把從數據庫獲取ICON 代碼提前到從A

讀書筆記-MySQL運維內參08-索引實現原理1

復雜 ges ron 神奇定位覆蓋 image sql png B樹和B+樹的區別 1，B樹的葉子節點和內節點存在的都是數據行的所有信息，B+樹的內節點值存放鍵（索引）信息，數據都在葉子節點上。 2，由於B樹鍵和值的所有信息，所以每頁的存儲的數據行相對較少，隨數據發

讀書筆記-MySQL運維內參08-索引實現原理2

自己新節點 .cn 記錄產生連接 -m 父節點 alt 我們已經知道B+樹的組織結構及不同層之間是如何關聯的了。現在我們模擬一個B+樹是如何從小到大，從無到有，從簡到繁的過程。首先我們來做一些假設： 1，每個頁面包括內節點和葉子節點最多可以

MySQL數據庫中的索引（一）——索引實現原理

物理地址關鍵字必須增加 pic 搜索索引而是哈希索引掃描今天我們來探討一下數據庫中一個很重要的概念：索引。 MySQL官方對索引的定義為：索引（Index）是幫助MySQL高效獲取數據的數據結構，即索引是一種數據結構。我們知道，數據庫查詢是數據庫的最主要功能

InnoDB MVCC實現原理及源碼解析

InnoDB MVCC1、原理介紹數據多版本(MVCC)是MySQL實現高性能的一個主要的一個主要方式，通過對普通的SELECT不加鎖，直接利用MVCC讀取指版本的值，避免了對數據重復加鎖的過程。InnoDB支持MVCC多版本，其中RC和RR隔離級別是利用consistent read view方式支持的，

ConcurrentHashMap實現原理以及源碼分析

賦值 already 設計 [] 取數 ole vat 復制變化 ConcurrentHashMap是HashMap的高並發版本，是線程安全的，而HashMap是非線程安全的一、底層實現底層結構跟hashmap一樣，都是通過數組+鏈表+紅黑樹實現的，不過它要保證線程

CopyOnWriteArrayList實現原理以及原始碼解析

CopyOnWriteArrayList實現原理以及原始碼解析 1、CopyOnWrite容器（併發容器） Copy-On-Write簡稱COW，是一種用於程式設計中的優化策略。其基本思路是，從一開始大家都在共享同一個內容，當某個人想要修改這個內容的時候，才

LinkedList實現原理以及原始碼解析（1.7）

LinkedList實現原理以及原始碼解析（1.7）在1.7之後，oracle將LinkedList做了一些優化，將1.6中的環形結構優化為了直線型了連結串列結構。 1、LinkedList定義： public class LinkedList<E>

ArrayList實現原理以及原始碼解析（補充JDK1.7,1.8）

ArrayList實現原理以及原始碼解析（補充JDK1.7,1.8） ArrayList的基本知識在上一節已經討論過，這節主要看ArrayList在JDK1.6到1.8的一些實現變化。 JDK版本不一樣，ArrayList類的原始碼也不一樣。 1、ArrayList類結構：

ArrayList實現原理以及原始碼解析(JDK1.6)

ArrayList實現原理以及原始碼解析(JDK1.6) 1、ArrayList ArrayList是基於陣列實現的，是一個動態陣列，其容量能自動增長，類似於C語言中的動態申請記憶體，動態增長記憶體。 ArrayList不是執行緒安全的，只能用在單執行緒環境下。

ConcurrentHashMap實現原理以及原始碼解析

ConcurrentHashMap實現原理以及原始碼解析 ConcurrentHashMap是Java1.5中引用的一個執行緒安全的支援高併發的HashMap集合類。 1、執行緒不安全的HashMap 因為多執行緒環境下，使用Hashmap進行put操作會引起死迴圈

String、Object、包裝類的常用方法以及注意點

String類 1.1String的兩種例項化方式 a.直接賦值 String str=“hello”； b.通過構造方法例項化String物件 1.2字串相等比較