1. 程式人生 > >【SQL】常用MySQL面試題(二)

【SQL】常用MySQL面試題(二)

SQL索引

一、為什麼要建立索引呢(優點)?

建立索引可以大大提高系統的效能。
第一, 通過建立唯一性索引,可以保證資料庫表中每一行資料的唯一性。
第二, 可以大大加快資料的檢索速度,這也是建立索引的最主要的原因。
第三, 可以加速表和表之間的連線,特別是在實現資料的參考完整性方面特別有意義。
第四, 在使用分組和排序子句進行資料檢索時,同樣可以顯著減少查詢中分組和排序的時間。
第五, 通過使用索引,可以在查詢的過程中,使用優化隱藏器,提高系統的效能。

二、建立方向索引的不利因素(缺點)

也許會有人要問:增加索引有如此多的優點,為什麼不對錶中的每一個列建立一個索引呢?這種想法固然有其合理性,然而也有其片面性。雖然,索引有許多優點,但是,為表中的每一個列都增加索引,是非常不明智的。這是因為,增加索引也有許多不利的一個方面。

第一, 建立索引和維護索引要耗費時間,這種時間隨著資料量的增加而增加。
第二, 索引需要佔物理空間,除了資料表佔資料空間之外,每一個索引還要佔一定的物理空間,如果要建立聚簇索引,那麼需要的空間就會更大。
第三, 當對錶中的資料進行增加、刪除和修改的時候,索引也要動態的維護,這樣就降低了資料的維護速度。

三、建立方向索引的準則

索引是建立在資料庫表中的某些列的上面。因此,在建立索引的時候,應該仔細考慮在哪些列上可以建立索引,在哪些列上不能建立索引。
一般來說,應該在這些列上建立索引。
第一, 在經常需要搜尋的列上,可以加快搜索的速度;
第二, 在作為主鍵的列上,強制該列的唯一性和組織表中資料的排列結構;
第三, 在經常用在連線的列上,這些列主要是一些外來鍵,可以加快連線的速度;
第四, 在經常需要根據範圍進行搜尋的列上建立索引,因為索引已經排序,其指定的範圍是連續的;
第五, 在經常需要排序的列上建立索引,因為索引已經排序,這樣查詢可以利用索引的排序,加快排序查詢時間;
第六, 在經常使用在WHERE子句中的列上面建立索引,加快條件的判斷速度。

同樣,對於有些列不應該建立索引。一般來說,不應該建立索引的的這些列具有下列特點:
第一, 對於那些在查詢中很少使用或者參考的列不應該建立索引。這是因為,既然這些列很少使用到,因此有索引或者無索引,並不能提高查詢速度。相反,由於增加了索引,反而降低了系統的維護速度和增大了空間需求。
第二, 對於那些只有很少資料值的列也不應該增加索引。這是因為,由於這些列的取值很少,例如人事表的性別列,在查詢的結果中,結果集的資料行佔了表中資料行的很大比例,即需要在表中搜索的資料行的比例很大。增加索引,並不能明顯加快檢索速度。
第三, 對於那些定義為text, image和bit資料型別的列不應該增加索引。這是因為,這些列的資料量要麼相當大,要麼取值很少。
第 四, 當修改效能遠遠大於檢索效能時,不應該建立索引。這是因為,修改效能和檢索效能是互相矛盾的。當增加索引時,會提高檢索效能,但是會降低修改效能。當減少索引時,會提高修改效能,降低檢索效能。因此,當修改效能遠遠大於檢索效能時,不應該建立索引。

四、建立索引的方法

建立索引有多種方法,這些方法包括直接建立索引的方法和間接建立索引的方法。
第一, 直接建立索引,例如使用CREATE INDEX語句或者使用建立索引向導。
第二, 間接建立索引,例如在表中定義主鍵約束或者唯一性鍵約束時,同時也建立了索引。
雖然,這兩種方法都可以建立索引,但是,它們建立索引的具體內容是有區別的。
使 用CREATE INDEX語句或者使用建立索引向導來建立索引,這是最基本的索引建立方式,並且這種方法最具有柔性,可以定製創建出符合自己需要的索引。在使用這種方式建立索引時,可以使用許多選項,例如指定資料頁的充滿度、進行排序、整理統計資訊等,這樣可以優化索引。使用這種方法,可以指定索引的型別、唯一性和複合性,也就是說,既可以建立聚簇索引,也可以建立非聚簇索引,既可以在一個列上建立索引,也可以在兩個或者兩個以上的列上建立索引。
通過定義主鍵約束或者唯一性鍵約束,也可以間接建立索引。主鍵約束是一種保持資料完整性的邏輯,它限制表中的記錄有相同的主鍵記錄。在建立主鍵約束時,系統自動建立了一個唯一性的聚簇索引。雖然,在邏輯上,主鍵約束是一種重要的結構,但是,在物理結構上,與主鍵約束相對應的結構是唯一性的聚簇索引。換句話說,在物理實現上,不存在主鍵約束,而只存在唯一性的聚簇索引。同樣,在建立唯一性鍵約束時,也同時建立了索引,這種索引則是唯一性的非聚簇索引。因此,當使用約束建立索引時,索引的型別和特徵基本上都已經確定了,由使用者定製的餘地比較小。
當在表上定義主鍵或者唯一性鍵約束時,如果表中已經有了使用 CREATE INDEX語句建立的標準索引時,那麼主鍵約束或者唯一性鍵約束建立的索引覆蓋以前建立的標準索引。也就是說,主鍵約束或者唯一性鍵約束建立的索引的優先順序高於使用CREATE INDEX語句建立的索引。

五、索引的特徵

索引有兩個特徵,即唯一性索引和複合索引。

唯一性索引保證在索引列中的全部資料是唯一的,不會包含冗餘資料。如果表中已經有一個主鍵約束或者唯一性鍵約束,那麼當建立表或者修改表時,SQL Server自動建立一個唯一性索引。然而,如果必須保證唯一性,那麼應該建立主鍵約束或者唯一性鍵約束,而不是建立一個唯一性索引。當建立唯一性索引時,應該認真考慮這些規則:當在表中建立主鍵約束或者唯一性鍵約束時,SQL Server自動建立一個唯一性索引;如果表中已經包含有資料,那麼當建立索引時,SQL Server檢查表中已有資料的冗餘性;每當使用插入語句插入資料或者使用修改語句修改資料時,SQL Server檢查資料的冗餘性:如果有冗餘值,那麼SQL Server取消該語句的執行,並且返回一個錯誤訊息;確保表中的每一行資料都有一個唯一值,這樣可以確保每一個實體都可以唯一確認;只能在可以保證實體完整性的列上建立唯一性索引,例如,不能在人事表中的姓名列上建立唯一性索引,因為人們可以有相同的姓名。
複合索引就是一個索引建立在兩個列或者多個列上。在搜尋時,當兩個或者多個列作為一個關鍵值時,最好在這些列上建立複合索引。當建立複合索引時,應該考慮這些規則:最多可以把16個列合併成一個單獨的複合索引,構成複合索引的列的總長度不能超過900位元組,也就是說複合列的長度不能太長;在複合索引中,所有的列必須來自同一個表中,不能跨表建立複合列;在複合索引中,列的排列順序是非常重要的,因此要認真排列列的順序,原則上,應該首先定義最唯一的列,例如在(COL1,COL2)上的索引與在(COL2,COL1)上的索引是不相同的,因為兩個索引的列的順序不同;為了使查詢優化器使用複合索引,查詢語句中的WHERE子句必須參考複合索引中第一個列;當表中有多個關鍵列時,複合索引是非常有用的;使用複合索引可以提高查詢效能,減少在一個表中所建立的索引數量。

六、索引的型別

根據索引的順序與資料表的物理順序是否相同,可以把索引分成兩種型別。一種是資料表的物理順序與索引順序相同的聚簇索引,另一種是資料表的物理順序與索引順序不相同的非聚簇索引。
七、聚簇索引的體系結構
索引的結構類似於樹狀結構,樹的頂部稱為葉級,樹的其它部分稱為非葉級,樹的根部在非葉級中。同樣,在聚簇索引中,聚簇索引的葉級和非葉級構成了一個樹狀結構,索引的最低階是葉級。在聚簇索引中,表中的資料所在的資料頁是葉級,在葉級之上的索引頁是非葉級,索引資料所在的索引頁是非葉級。在聚簇索引中,資料值的順序總是按照升序排列。
應該在表中經常搜尋的列或者按照順序訪問的列上建立聚簇索引。當建立聚簇索引時,應該考慮這些因素:每一個表只能有一個聚簇索引,因為表中資料的物理順序只能有一個;表中行的物理順序和索引中行的物理順序是相同的,在建立任何非聚簇索引之前建立聚簇索引,這是因為聚簇索引改變了表中行的物理順序,資料行按照一定的順序排列,並且自動維護這個順序;關鍵值的唯一性要麼使用UNIQUE關鍵字明確維護,要麼由一個內部的唯一識別符號明確維護,這些唯一性識別符號是系統自己使用的,使用者不能訪問;聚簇索引的平均大小大約是資料表的百分之五,但是,實際的聚簇索引的大小常常根據索引列的大小變化而變化;在索引的建立過程中,SQL Server臨時使用當前資料庫的磁碟空間,當建立聚簇索引時,需要1.2倍的表空間的大小,因此,一定要保證有足夠的空間來建立聚簇索引。
當系統訪問表中的資料時,首先確定在相應的列上是否存在有索引和該索引是否對要檢索的資料有意義。如果索引存在並且該索引非常有意義,那麼系統使用該索引訪問表中的記錄。系統從索引開始瀏覽到資料,索引瀏覽則從樹狀索引的根部開始。從根部開始,搜尋值與每一個關鍵值相比較,確定搜尋值是否大於或者等於關鍵值。這一步重複進行,直到碰上一個比搜尋值大的關鍵值,或者該搜尋值大於或者等於索引頁上所有的關鍵值為止。

系統如何訪問表中的資料
一般地,系統訪問資料庫中的資料,可以使用兩種方法:表掃描和索引查詢。第一種方法是表掃描,就是指系統將指標放置在該表的表頭資料所在的資料頁上,然後按照資料頁的排列順序,一頁一頁地從前向後掃描該表資料所佔有的全部資料頁,直至掃描完表中的全部記錄。在掃描時,如果找到符合查詢條件的記錄,那麼就將這條記錄挑選出來。最後,將全部挑選出來符合查詢語句條件的記錄顯示出來。第二種方法是使用索引查詢。索引是一種樹狀結構,其中儲存了關鍵字和指向包含關鍵字所在記錄的資料頁的指標。當使用索引查詢時,系統沿著索引的樹狀結構,根據索引中關鍵字和指標,找到符合查詢條件的的記錄。最後,將全部查詢到的符合查詢語句條件的記錄顯示出來。
在SQL Server中,當訪問資料庫中的資料時,由SQL Server確定該表中是否有索引存在。如果沒有索引,那麼SQL Server使用表掃描的方法訪問資料庫中的資料。查詢處理器根據分佈的統計資訊生成該查詢語句的優化執行規劃,以提高訪問資料的效率為目標,確定是使用表掃描還是使用索引。

Tips1【擴充關於SQL索引中的聚集索引和非聚集索引】
實際上,您可以把索引理解為一種特殊的目錄。微軟的SQL SERVER提供了兩種索引:聚集索引(clustered index,也稱聚類索引、簇集索引)和非聚集索引(nonclustered index,也稱非聚類索引、非簇集索引)。下面,我們舉例來說明一下聚集索引和非聚集索引的區別:
  其實,我們的漢語字典的正文字身就是一個聚集索引。比如,我們要查“安”字,就會很自然地翻開字典的前幾頁,因為“安”的拼音是“an”,而按照拼音排序漢字的字典是以英文字母“a”開頭並以“z”結尾的,那麼“安”字就自然地排在字典的前部。如果您翻完了所有以“a”開頭的部分仍然找不到這個字,那麼就說明您的字典中沒有這個字;同樣的,如果查“張”字,那您也會將您的字典翻到最後部分,因為“張”的拼音是“zhang”。也就是說,字典的正文部分本身就是一個目錄,您不需要再去查其他目錄來找到您需要找的內容。我們把這種正文內容本身就是一種按照一定規則排列的目錄稱為“聚集索引”。
  如果您認識某個字,您可以快速地從自動中查到這個字。但您也可能會遇到您不認識的字,不知道它的發音,這時候,您就不能按照剛才的方法找到您要查的字,而需要去根據“偏旁部首”查到您要找的字,然後根據這個字後的頁碼直接翻到某頁來找到您要找的字。但您結合“部首目錄”和“檢字表”而查到的字的排序並不是真正的正文的排序方法,比如您查“張”字,我們可以看到在查部首之後的檢字表中“張”的頁碼是672頁,檢字表中“張”的上面是“馳”字,但頁碼卻是63頁,“張”的下面是“弩”字,頁面是390頁。很顯然,這些字並不是真正的分別位於“張”字的上下方,現在您看到的連續的“馳、張、弩”三字實際上就是他們在非聚集索引中的排序,是字典正文中的字在非聚集索引中的對映。我們可以通過這種方式來找到您所需要的字,但它需要兩個過程,先找到目錄中的結果,然後再翻到您所需要的頁碼。我們把這種目錄純粹是目錄,正文純粹是正文的排序方式稱為“非聚集索引”。
  通過以上例子,我們可以理解到什麼是“聚集索引”和“非聚集索引”。進一步引申一下,我們可以很容易的理解:每個表只能有一個聚集索引,因為目錄只能按照一種方法進行排序。

根本區別

聚集索引和非聚集索引的根本區別是表記錄的排列順序和與索引的排列順序是否一致。

聚集索引

聚集索引表記錄的排列順序和索引的排列順序一致,所以查詢效率快,只要找到第一個索引值記錄,其餘就連續性的記錄在物理也一樣連續存放。聚集索引對應的缺點就是修改慢,因為為了保證表中記錄的物理和索引順序一致,在記錄插入的時候,會對資料頁重新排序。

非聚集索引

非聚集索引制定了表中記錄的邏輯順序,但是記錄的物理和索引不一定一致,兩種索引都採用B+樹結構,非聚集索引的葉子層並不和實際資料頁相重疊,而採用葉子層包含一個指向表中的記錄在資料頁中的指標方式。非聚集索引層次多,不會造成資料重排。

Tips2【擴充關於索引的原理解析】