資料庫中的聚集索引、非聚集索引、優化索引
這篇文章我們來討論一下索引的問題吧,這篇文章不會介紹怎麼建立索引,但是會介紹怎麼優化索引。
什麼是索引?
索引是對記錄按照多個欄位進行排序的一種方式。對錶中的某個欄位建立索引會建立另一種資料結構,其中儲存著欄位的值,每個值又指向與它相關的記錄。這種索引的資料結構是經過排序的,因而可以對其執行二分查詢。
怎麼理解索引呢?我們經常用在windows系統下,查詢某些檔案,系統都會建議我們建立檔案的索引。比如,如果你要查詢一個檔名,系統要掃描所有檔案進行傻瓜式地掃描,速度當然會很慢。當我們建立了索引後,經過相關的演算法分析,會很快查詢出我們想要的檔名。
我們知道了索引的定義後,下面我們談談聚集索引、非聚集索引。
聚集索引、非聚集索引
聚集索引
聚集索引是資料表中按照某個列的順序來排序。即一個表中建立了聚集索引,則表的預設排序按照此列來排序。
一個表只能有一個聚集索引,因為表的預設排序只能有一個。
非聚集索引
非聚集索引具有獨立於資料行的結構。非聚集索引中的專案按索引鍵值的順序儲存,而表中的資訊按另一種順序儲存(這可以由聚集索引規定)。對於非聚集索引,可以為在表非聚集索引中查詢資料時常用的每個列建立一個非聚集索引。
查詢優化器
查詢優化器在執行查詢時通常會選擇最有效的方法。 但如果沒有索引,則查詢優化器必須掃描表。您的任務是設計並建立最適合您的環境的索引,以便查詢優化器可以從多個有效的索引中選擇。
優化索引
(這些都是網上找的,這裡做一些記錄)
(1)負向條件查詢不能使用索引
select * from order where status!=0 and stauts!=1
not in/not exists 都不是好習慣
可以優化為 in 查詢:
select * from order where status in(2,3)
(2)前導模糊查詢不能使用索引
select * from order where desc like '%XX'
而非前導模糊查詢則可以:
select * from order where desc like 'XX%'
(3)資料區分度不大的欄位不宜使用索引
select * from user where sex=1
原因:性別只有男,女,每次過濾掉的資料很少,不宜使用索引。
經驗上,能過濾 80% 資料時就可以使用索引。對於訂單狀態,如果狀態值很少,不宜使用索引,如果狀態值很多,能夠過濾大量資料,則應該建立索引。
(4)在屬性上進行計算不能命中索引
select * from order where YEAR(date) < = '2017'
即使date上建立了索引,也會全表掃描,可優化為值計算:
select * from order where date < = CURDATE()
或者:
select * from order where date < = '2017-01-01'
(5)如果業務大部分是單條查詢,使用Hash索引效能更好,例如使用者中心
select * from user where uid=? select * from user where login_name=?
原因:
B-Tree索引的時間複雜度是O(log(n))
Hash索引的時間複雜度是O(1)
(6)允許為null的列,查詢有潛在大坑
單列索引不存null值,複合索引不存全為null的值,如果列允許為null,可能會得到“不符合預期”的結果集
select * from user where name != 'shenjian'
如果name允許為null,索引不儲存null值,結果集中不會包含這些記錄。
所以,請使用 not null 約束以及預設值。
(7)複合索引最左字首,並不是值SQL語句的where順序要和複合索引一致
使用者中心建立了(login_name, passwd)的複合索引
select * from user where login_name=? and passwd=? select * from user where passwd=? and login_name=?
都能夠命中索引
select * from user where login_name=?
也能命中索引,滿足複合索引最左字首
select * from user where passwd=?
不能命中索引,不滿足複合索引最左字首
(8)使用ENUM而不是字串
ENUM儲存的是TINYINT,別在列舉中搞一些“中國”“北京”“技術部”這樣的字串,字串空間又大,效率又低。
(9)如果明確知道只有一條結果返回,limit 1能夠提高效率
select * from user where login_name=?
可以優化為:
select * from user where login_name=? limit 1
原因:
你知道只有一條結果,但資料庫並不知道,明確告訴它,讓它主動停止遊標移動
(10)把計算放到業務層而不是資料庫層,除了節省資料的CPU,還有意想不到的查詢快取優化效果
select * from order where date < = CURDATE()
這不是一個好的SQL實踐,應該優化為:
$curDate = date('Y-m-d'); $res = mysql_query('select * from order where date < = $curDate');
原因:
釋放了資料庫的CPU
多次呼叫,傳入的SQL相同,才可以利用查詢快取
(11)強制型別轉換會全表掃描
select * from user where phone=13800001234
你以為會命中phone索引麼?大錯特錯了,這個語句究竟要怎麼改?
末了,再加一條,不要使用select *(潛臺詞,文章的SQL都不合格 =_=),只返回需要的列,能夠大大的節省資料傳輸量,與資料庫的記憶體使用量喲。
可以關注本人的公眾號,多年經驗的原創文章共享給大家。