1. 程式人生 > >通過建立索引優化MySQL查詢速度

通過建立索引優化MySQL查詢速度

公司使用的業務資料庫是MySQL,隨著公司業務的發展,某些表中的資料變得越來越大,當單表資料量超過幾十萬後,查詢速度明顯變慢,導致使用者體驗下降。因此,提升資料庫查詢速度迫在眉睫,下面我們來看下如何通過建立索引提升MySQL的查詢速度。

一,什麼是索引
索引是用來快速地尋找那些具有特定值的記錄,所有MySQL索引都以B-樹的形式儲存。如果沒有索引,執行查詢時MySQL必須從第一個記錄開始掃描整個表的所有記錄,直至找到符合要求的記錄。表裡面的記錄數量越多,這個操作的代價就越高。如果作為搜尋條件的列上已經建立了索引,MySQL無需掃描任何記錄即可迅速得到目標記錄所在的位置。如果表有1000個記錄,通過索引查詢記錄至少要比順序掃描記錄快100倍。

假設我們建立了一個名為user的表:

CREATE TABLE user ( id CHAR(36)NOT NULL, name CHAR(50) NOT NULL );

然後,我們完全隨機把1000個不同name值插入到people表。在資料檔案中name列沒有任何明確的次序。如果我們建立了name列的索引,MySQL將在索引中排序name列,對於索引中的每一項,MySQL在內部為它儲存一個數據檔案中實際記錄所在位置的“指標”。因此,如果我們要查詢name等於“shiyong”記錄的id(SQL命令為“SELECT id FROM user WHERE name=’shiyong’;”),MySQL能夠在name的索引中查詢“shiyong”值,然後直接轉到資料檔案中相應的行,準確地返回該行的id。在這個過程中,MySQL只需處理一個行就可以返回結果。如果沒有“name”列的索引,MySQL要掃描資料檔案中的所有記錄,即1000個記錄!顯然,需要MySQL處理的記錄數量越少,則它完成任務的速度就越快。

二,如何建立索引
建立索引是很簡單的,但是如何建立一個需要的索引,這是需要思考的,索引建的好,可以很好的提升查詢速度,索引建的不好,不僅提升不了查詢速度,還會影響資料的新增修改速度。

在效能優化過程中,選擇在哪些列上建立索引是最重要的步驟之一。可以考慮使用索引的主要有兩種型別的列:在WHERE子句中出現的列,在join子句中出現的列。請看下面這個查詢:

SELECT age ## 不使用索引

FROM people WHERE firstname=’Mike’ ## 考慮使用索引

AND lastname=’Sullivan’ ## 考慮使用索引

這個查詢與前面的查詢略有不同,但仍屬於簡單查詢。由於age是在SELECT部分被引用,MySQL不會用它來限制列選擇操作。因此,對於這個查詢來說,建立age列的索引沒有什麼必要。下面是一個更復雜的例子:

SELECT people.age, ##不使用索引

town.name ##不使用索引

FROM people LEFT JOIN town ON

people.townid=town.townid ##考慮使用索引

WHERE firstname=’Mike’ ##考慮使用索引

AND lastname=’Sullivan’ ##考慮使用索引

與前面的例子一樣,由於firstname和lastname出現在WHERE子句中,因此這兩個列仍舊有建立索引的必要。除此之外,由於town表的townid列出現在join子句中,因此我們需要考慮建立該列的索引。那麼,我們是否可以簡單地認為應該索引WHERE子句和join子句中出現的每一個列呢?差不多如此,但並不完全。我們還必須考慮到對列進行比較的操作符型別。MySQL只有對以下操作符才使用索引:<,<=,=,>,>=,BETWEEN,IN,以及某些時候的LIKE。可以在LIKE操作中使用索引的情形是指另一個運算元不是以萬用字元(%或者_)開頭的情形。例如,“SELECT peopleid FROM people WHERE firstname LIKE ‘Mich%’;”這個查詢將使用索引,但“SELECT peopleid FROM people WHERE firstname LIKE ‘%ike’;”這個查詢不會使用索引。

三,建立組合索引
索引可以是單列索引,也可以是多列索引。下面我們通過具體的例子來說明這兩種索引的區別。假設有這樣一個people表:

CREATE TABLE people ( peopleid 

SMALLINT NOT NULL AUTO_INCREMENT,

firstname CHAR(50) NOT NULL, lastname CHAR(50) NOT NULL, 

age SMALLINT NOT NULL,

townid SMALLINT NOT NULL, PRIMARY KEY (peopleid) );

下面是我們插入到這個people表的資料:

這個資料片段中有四個名字為“Mikes”的人(其中兩個姓Sullivans,兩個姓McConnells),有兩個年齡為17歲的人,還有一個名字與眾不同的Joe Smith。

這個表的主要用途是根據指定的使用者姓、名以及年齡返回相應的peopleid。例如,我們可能需要查詢姓名為Mike Sullivan、年齡17歲使用者的peopleid(SQL命令為SELECT peopleid FROM people WHERE firstname=’Mike’ AND lastname=’Sullivan’ AND age=17;)。由於我們不想讓MySQL每次執行查詢就去掃描整個表,這裡需要考慮運用索引。

首先,我們可以考慮在單個列上建立索引,比如firstname、lastname或者age列。如果我們建立firstname列的索引(ALTER TABLE people ADD INDEX firstname (firstname);),MySQL將通過這個索引迅速把搜尋範圍限制到那些firstname=’Mike’的記錄,然後再在這個“中間結果集”上進行其他條件的搜尋:它首先排除那些lastname不等於“Sullivan”的記錄,然後排除那些age不等於17的記錄。當記錄滿足所有搜尋條件之後,MySQL就返回最終的搜尋結果。

由於建立了firstname列的索引,與執行表的完全掃描相比,MySQL的效率提高了很多,但我們要求MySQL掃描的記錄數量仍舊遠遠超過了實際所需要的。雖然我們可以刪除firstname列上的索引,再建立lastname或者age列的索引,但總地看來,不論在哪個列上建立索引搜尋效率仍舊相似。

為了提高搜尋效率,我們需要考慮運用多列索引。如果為firstname、lastname和age這三個列建立一個多列索引,MySQL只需一次檢索就能夠找出正確的結果!下面是建立這個多列索引的SQL命令:

ALTER TABLE people ADD INDEX fname_lname_age (firstname,lastname,age); 

由於索引檔案以B-樹格式儲存,MySQL能夠立即轉到合適的firstname,然後再轉到合適的lastname,最後轉到合適的age。在沒有掃描資料檔案任何一個記錄的情況下,MySQL就正確地找出了搜尋的目標記錄!

那麼,如果在firstname、lastname、age這三個列上分別建立單列索引,效果是否和建立一個firstname、lastname、age的多列索引一樣呢?答案是否定的,兩者完全不同。當我們執行查詢的時候,MySQL只能使用一個索引。如果你有三個單列的索引,MySQL會試圖選擇一個限制最嚴格的索引。但是,即使是限制最嚴格的單列索引,它的限制能力也肯定遠遠低於firstname、lastname、age這三個列上的多列索引。

多列索引還有另外一個優點,它通過稱為最左字首(Leftmost Prefixing)的概念體現出來。繼續考慮前面的例子,現在我們有一個firstname、lastname、age列上的多列索引,我們稱這個索引為fname_lname_age。當搜尋條件是以下各種列的組合時,MySQL將使用fname_lname_age索引:

firstname,lastname,age

firstname,lastname

firstname

從另一方面理解,它相當於我們建立了(firstname,lastname,age)、(firstname,lastname)以及(firstname)這些列組合上的索引。下面這些查詢都能夠使用這個fname_lname_age索引:

SELECT peopleid FROM people 

WHERE firstname='Mike' AND lastname='Sullivan' AND age='17'; 

SELECT peopleid FROM people WHERE firstname='Mike' AND lastname='Sullivan'; 

SELECT peopleid FROM people WHERE firstname='Mike'; 

The following queries cannot use the index at all: 

SELECT peopleid FROM people WHERE lastname='Sullivan'; 

SELECT peopleid FROM people WHERE age='17'; 

SELECT peopleid FROM people WHERE lastname='Sullivan' AND age='17';

四,使用索引的注意事項
1.索引不會包含有NULL值的列

只要列中包含有NULL值都將不會被包含在索引中,複合索引中只要有一列含有NULL值,那麼這一列對於此複合索引就是無效的。所以我們在資料庫設計時不要讓欄位的預設值為NULL。

2.使用短索引

對串列進行索引,如果可能應該指定一個字首長度。例如,如果有一個CHAR(255)的列,如果在前10個或20個字元內,多數值是惟一的,那麼就不要對整個列進行索引。短索引不僅可以提高查詢速度而且可以節省磁碟空間和I/O操作。

3.索引列排序

MySQL查詢只使用一個索引,因此如果where子句中已經使用了索引的話,那麼order by中的列是不會使用索引的。因此資料庫預設排序可以符合要求的情況下不要使用排序操作;儘量不要包含多個列的排序,如果需要最好給這些列建立複合索引。

4.like語句操作

一般情況下不鼓勵使用like操作,如果非使用不可,如何使用也是一個問題。like “%aaa%” 不會使用索引而like “aaa%”可以使用索引。

5.不要在列上進行運算

select * from users where YEAR(adddate)<2007;

將在每個行上進行運算,這將導致索引失效而進行全表掃描,因此我們可以改成:

select * from users where adddate<‘2007-01-01'; 

6.不使用NOT IN和<>操作

五,總結
索引可以提高查詢速度,但過多的使用索引將會造成濫用。因此索引也會有它的缺點:
1.雖然索引大大提高了查詢速度,同時卻會降低更新表的速度,如對錶進行INSERT、UPDATE和DELETE。因為更新表時,MySQL不僅要儲存資料,還要儲存一下索引檔案。

2.建立索引會佔用磁碟空間的索引檔案。一般情況這個問題不太嚴重,但如果你在一個大表上建立了多種組合索引,索引檔案的會膨脹很快。

索引只是提高效率的一個因素,如果你的MySQL有大資料量的表,就需要花時間研究建立最優秀的索引,或優化查詢語句。