1. 程式人生 > >索引原理與慢查詢優化(2)

索引原理與慢查詢優化(2)

不難 設置 本地 保持 建立 名稱 三次 執行計劃 慢查詢日誌

七 正確使用索引

一 索引未命中

並不是說我們創建了索引就一定會加快查詢速度,若想利用索引達到預想的提高查詢速度的效果,我們在添加索引時,必須遵循以下問題

1 範圍問題,或者說條件不明確,條件中出現這些符號或關鍵字:>、>=、<、<=、!= 、between...and...、like、

大於號、小於號

技術分享圖片

不等於!=

技術分享圖片

between ...and...

技術分享圖片

like

技術分享圖片

2 盡量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*),表示字段不重復的比例,比例越大我們掃描的記錄數越少,唯一鍵的區分度是1,而一些狀態、性別字段可能在大數據面前區分度就是0,那可能有人會問,這個比例有什麽經驗值嗎?使用場景不同,這個值也很難確定,一般需要join的字段我們都要求是0.1以上,即平均1條掃描10條記錄

#先把表中的索引都刪除,讓我們專心研究區分度的問題

#先把表中的索引都刪除,讓我們專心研究區分度的問題
mysql> desc s1;
+--------+-------------+------+-----+---------+-------+
| Field  | Type        | Null | Key | Default | Extra |
+--------+-------------+------+-----+---------+-------+
| id     | int(11)     | YES  | MUL | NULL    |       |
| name   | varchar(20) | YES  |     | NULL    |       |
| gender | char(5)     | YES  |     | NULL    |       |
| email  | varchar(50) | YES  | MUL | NULL    |       |
+--------+-------------+------+-----+---------+-------+
4 rows in set (0.00 sec)

mysql> drop index a on s1;
Query OK, 0 rows affected (0.20 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> drop index d on s1;
Query OK, 0 rows affected (0.18 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> desc s1;
+--------+-------------+------+-----+---------+-------+
| Field  | Type        | Null | Key | Default | Extra |
+--------+-------------+------+-----+---------+-------+
| id     | int(11)     | YES  |     | NULL    |       |
| name   | varchar(20) | YES  |     | NULL    |       |
| gender | char(5)     | YES  |     | NULL    |       |
| email  | varchar(50) | YES  |     | NULL    |       |
+--------+-------------+------+-----+---------+-------+
4 rows in set (0.00 sec)

技術分享圖片

分析原因

我們編寫存儲過程為表s1批量添加記錄,name字段的值均為egon,也就是說name這個字段的區分度很低(gender字段也是一樣的,我們稍後再搭理它)

回憶b+樹的結構,查詢的速度與樹的高度成反比,要想將樹的高低控制的很低,需要保證:在某一層內數據項均是按照從左到右,從小到大的順序依次排開,即左1<左2<左3<...

而對於區分度低的字段,無法找到大小關系,因為值都是相等的,毫無疑問,還想要用b+樹存放這些等值的數據,只能增加樹的高度,字段的區分度越低,則樹的高度越高。極端的情況,索引字段的值都一樣,那麽b+樹幾乎成了一根棍。本例中就是這種極端的情況,name字段所有的值均為‘egon‘

#現在我們得出一個結論:為區分度低的字段建立索引,索引樹的高度會很高,然而這具體會帶來什麽影響呢???

#1:如果條件是name=‘xxxx‘,那麽肯定是可以第一時間判斷出‘xxxx‘是不在索引樹中的(因為樹中所有的值均為‘egon’),所以查詢速度很快

#2:如果條件正好是name=‘egon‘,查詢時,我們永遠無法從樹的某個位置得到一個明確的範圍,只能往下找,往下找,往下找。。。這與全表掃描的IO次數沒有多大區別,所以速度很慢

3 =和in可以亂序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序,mysql的查詢優化器會幫你優化成索引可以識別的形式

4 索引列不能參與計算,保持列“幹凈”,比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,原因很簡單,b+樹中存的都是數據表中的字段值,但進行檢索時,需要把所有元素都應用函數才能比較,顯然成本太大。所以語句應該寫成create_time = unix_timestamp(’2014-05-29’)

技術分享圖片

5 and/or

#1、and與or的邏輯
    條件1 and 條件2:所有條件都成立才算成立,但凡要有一個條件不成立則最終結果不成立
    條件1 or 條件2:只要有一個條件成立則最終結果就成立

#2、and的工作原理
    條件:
        a = 10 and b = ‘xxx‘ and c > 3 and d =4
    索引:
        制作聯合索引(d,a,b,c)
    工作原理:
        對於連續多個and:mysql會按照聯合索引,從左到右的順序找一個區分度高的索引字段(這樣便可以快速鎖定很小的範圍),加速查詢,即按照d—>a->b->c的順序

#3、or的工作原理
    條件:
        a = 10 or b = ‘xxx‘ or c > 3 or d =4
    索引:
        制作聯合索引(d,a,b,c)

    工作原理:
        對於連續多個or:mysql會按照條件的順序,從左到右依次判斷,即a->b->c->d

技術分享圖片

在左邊條件成立但是索引字段的區分度低的情況下(name與gender均屬於這種情況),會依次往右找到一個區分度高的索引字段,加速查詢

技術分享圖片

技術分享圖片

經過分析,在條件為name=‘egon‘ and gender=‘male‘ and id>333 and email=‘xxx‘的情況下,我們完全沒必要為前三個條件的字段加索引,因為只能用上email字段的索引,前三個字段的索引反而會降低我們的查詢效率

技術分享圖片

6 最左前綴匹配原則(詳見第八小節),非常重要的原則,對於組合索引mysql會一直向右匹配直到遇到範圍查詢(>、<、between、like)就停止匹配(指的是範圍大了,有索引速度也慢),比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引則都可以用到,a,b,d的順序可以任意調整。

技術分享圖片

7 其他情況

- 使用函數
    select * from tb1 where reverse(email) = ‘egon‘;

- 類型不一致
    如果列是字符串類型,傳入條件是必須用引號引起來,不然...
    select * from tb1 where email = 999;

#排序條件為索引,則select字段必須也是索引字段,否則無法命中
- order by
    select name from s1 order by email desc;
    當根據索引排序時候,select查詢的字段如果不是索引,則速度仍然很慢
    select email from s1 order by email desc;
    特別的:如果對主鍵排序,則還是速度很快:
        select * from tb1 order by nid desc;

- 組合索引最左前綴
    如果組合索引為:(name,email)
    name and email       -- 命中索引
    name                 -- 命中索引
    email                -- 未命中索引


- count(1)或count(列)代替count(*)在mysql中沒有差別了

- create index xxxx  on tb(title(19)) #text類型,必須制定長度

二 其他註意事項

- 避免使用select *
- count(1)或count(列) 代替 count(*)
- 創建表時盡量時 char 代替 varchar
- 表的字段順序固定長度的字段優先
- 組合索引代替多個單列索引(經常使用多個條件查詢時)
- 盡量使用短索引
- 使用連接(JOIN)來代替子查詢(Sub-Queries)
- 連表時註意條件類型需一致
- 索引散列值(重復少)不適合建索引,例:性別不適合

八 聯合索引與覆蓋索引

一 聯合索引

聯合索引時指對表上的多個列合起來做一個索引。聯合索引的創建方法與單個索引的創建方法一樣,不同之處在僅在於有多個索引列,如下

mysql> create table t(
    -> a int,
    -> b int,
    -> primary key(a),
    -> key idx_a_b(a,b)
    -> );
Query OK, 0 rows affected (0.11 sec)

技術分享圖片

那麽何時需要使用聯合索引呢?在討論這個問題之前,先來看一下聯合索引內部的結果。從本質上來說,聯合索引就是一棵B+樹,不同的是聯合索引的鍵值得數量不是1,而是>=2。接著來討論兩個整型列組成的聯合索引,假定兩個鍵值得名稱分別為a、b如圖

可以看到這與我們之前看到的單個鍵的B+樹並沒有什麽不同,鍵值都是排序的,通過葉子結點可以邏輯上順序地讀出所有數據,就上面的例子來說,即(1,1),(1,2),(2,1),(2,4),(3,1),(3,2),數據按(a,b)的順序進行了存放。

因此,對於查詢select * from table where a=xxx and b=xxx, 顯然是可以使用(a,b) 這個聯合索引的,對於單個列a的查詢select * from table where a=xxx,也是可以使用(a,b)這個索引的。

但對於b列的查詢select * from table where b=xxx,則不可以使用(a,b) 索引,其實你不難發現原因,葉子節點上b的值為1、2、1、4、1、2顯然不是排序的,因此對於b列的查詢使用不到(a,b) 索引

聯合索引的第二個好處是在第一個鍵相同的情況下,已經對第二個鍵進行了排序處理,例如在很多情況下應用程序都需要查詢某個用戶的購物情況,並按照時間進行排序,最後取出最近三次的購買記錄,這時使用聯合索引可以幫我們避免多一次的排序操作,因為索引本身在葉子節點已經排序了,如下

#===========準備表==============
create table buy_log(
    userid int unsigned not null,
    buy_date date
);

insert into buy_log values
(1,‘2009-01-01‘),
(2,‘2009-01-01‘),
(3,‘2009-01-01‘),
(1,‘2009-02-01‘),
(3,‘2009-02-01‘),
(1,‘2009-03-01‘),
(1,‘2009-04-01‘);

alter table buy_log add key(userid);
alter table buy_log add key(userid,buy_date);

#===========驗證==============
mysql> show create table buy_log;
| buy_log | CREATE TABLE `buy_log` (
  `userid` int(10) unsigned NOT NULL,
  `buy_date` date DEFAULT NULL,
  KEY `userid` (`userid`),
  KEY `userid_2` (`userid`,`buy_date`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 |

#可以看到possible_keys在這裏有兩個索引可以用,分別是單個索引userid與聯合索引userid_2,但是優化器最終選擇了使用的key是userid因為該索引的葉子節點包含單個鍵值,所以理論上一個頁能存放的記錄應該更多
mysql> explain select * from buy_log where userid=2;
+----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
| id | select_type | table   | type | possible_keys   | key    | key_len | ref   | rows | Extra |
+----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
|  1 | SIMPLE      | buy_log | ref  | userid,userid_2 | userid | 4       | const |    1 |       |
+----+-------------+---------+------+-----------------+--------+---------+-------+------+-------+
1 row in set (0.00 sec)

#接著假定要取出userid為1的最近3次的購買記錄,用的就是聯合索引userid_2了,因為在這個索引中,在userid=1的情況下,buy_date都已經排序好了
mysql> explain select * from buy_log where userid=1 order by buy_date desc limit 3;
+----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
| id | select_type | table   | type | possible_keys   | key      | key_len | ref   | rows | Extra                    |
+----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
|  1 | SIMPLE      | buy_log | ref  | userid,userid_2 | userid_2 | 4       | const |    4 | Using where; Using index |
+----+-------------+---------+------+-----------------+----------+---------+-------+------+--------------------------+
1 row in set (0.00 sec)

#ps:如果extra的排序顯示是Using filesort,則意味著在查出數據後需要二次排序


#對於聯合索引(a,b),下述語句可以直接使用該索引,無需二次排序
select ... from table where a=xxx order by b;

#然後對於聯合索引(a,b,c)來首,下列語句同樣可以直接通過索引得到結果
select ... from table where a=xxx order by b;
select ... from table where a=xxx and b=xxx order by c;

#但是對於聯合索引(a,b,c),下列語句不能通過索引直接得到結果,還需要自己執行一次filesort操作,因為索引(a,c)並未排序
select ... from table where a=xxx order by c;

二 覆蓋索引

InnoDB存儲引擎支持覆蓋索引(covering index,或稱索引覆蓋),即從輔助索引中就可以得到查詢記錄,而不需要查詢聚集索引中的記錄。

使用覆蓋索引的一個好處是:輔助索引不包含整行記錄的所有信息,故其大小要遠小於聚集索引,因此可以減少大量的IO操作

註意:覆蓋索引技術最早是在InnoDB Plugin中完成並實現,這意味著對於InnoDB版本小於1.0的,或者MySQL數據庫版本為5.0以下的,InnoDB存儲引擎不支持覆蓋索引特性

對於InnoDB存儲引擎的輔助索引而言,由於其包含了主鍵信息,因此其葉子節點存放的數據為(primary key1,priamey key2,...,key1,key2,...)。例如

select age from s1 where id=123 and name = ‘egon‘; #id字段有索引,但是name字段沒有索引,該sql命中了索引,但未覆蓋,需要去聚集索引中再查找詳細信息。
最牛逼的情況是,索引字段覆蓋了所有,那全程通過索引來加速查詢以及獲取結果就ok了
mysql> desc s1;
+--------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+--------+-------------+------+-----+---------+-------+
| id | int(11) | NO | | NULL | |
| name | varchar(20) | YES | | NULL | |
| gender | char(6) | YES | | NULL | |
| email | varchar(50) | YES | | NULL | |
+--------+-------------+------+-----+---------+-------+
4 rows in set (0.21 sec)

mysql> explain select name from s1 where id=1000; #沒有任何索引
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
| 1 | SIMPLE | s1 | NULL | ALL | NULL | NULL | NULL | NULL | 2688336 | 10.00 | Using where |
+----+-------------+-------+------------+------+---------------+------+---------+------+---------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

mysql> create index idx_id on s1(id); #創建索引
Query OK, 0 rows affected (4.16 sec)
Records: 0 Duplicates: 0 Warnings: 0

mysql> explain select name from s1 where id=1000; #命中輔助索引,但是未覆蓋索引,還需要從聚集索引中查找name
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
| 1 | SIMPLE | s1 | NULL | ref | idx_id | idx_id | 4 | const | 1 | 100.00 | NULL |
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------+
1 row in set, 1 warning (0.08 sec)

mysql> explain select id from s1 where id=1000; #在輔助索引中就找到了全部信息,Using index代表覆蓋索引
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
| 1 | SIMPLE | s1 | NULL | ref | idx_id | idx_id | 4 | const | 1 | 100.00 | Using index |
+----+-------------+-------+------------+------+---------------+--------+---------+-------+------+----------+-------------+
1 row in set, 1 warning (0.03 sec)

覆蓋索引的另外一個好處是對某些統計問題而言的。基於上一小結創建的表buy_log,查詢計劃如下

mysql> explain select count(*) from buy_log;
+----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
| id | select_type | table   | type  | possible_keys | key    | key_len | ref  | rows | Extra       |
+----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
|  1 | SIMPLE      | buy_log | index | NULL          | userid | 4       | NULL |    7 | Using index |
+----+-------------+---------+-------+---------------+--------+---------+------+------+-------------+
1 row in set (0.00 sec)

innodb存儲引擎並不會選擇通過查詢聚集索引來進行統計。由於buy_log表有輔助索引,而輔助索引遠小於聚集索引,選擇輔助索引可以減少IO操作,故優化器的選擇如上key為userid輔助索引

對於(a,b)形式的聯合索引,一般是不可以選擇b中所謂的查詢條件。但如果是統計操作,並且是覆蓋索引,則優化器還是會選擇使用該索引,如下

#聯合索引userid_2(userid,buy_date),一般情況,我們按照buy_date是無法使用該索引的,但特殊情況下:查詢語句是統計操作,且是覆蓋索引,則按照buy_date當做查詢條件時,也可以使用該聯合索引
mysql> explain select count(*) from buy_log where buy_date >= ‘2011-01-01‘ and buy_date < ‘2011-02-01‘;
+----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
| id | select_type | table   | type  | possible_keys | key      | key_len | ref  | rows | Extra                    |
+----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
|  1 | SIMPLE      | buy_log | index | NULL          | userid_2 | 8       | NULL |    7 | Using where; Using index |
+----+-------------+---------+-------+---------------+----------+---------+------+------+--------------------------+
1 row in set (0.00 sec)

九 查詢優化神器-explain

關於explain命令相信大家並不陌生,具體用法和字段含義可以參考官網explain-output,這裏需要強調rows是核心指標,絕大部分rows小的語句執行一定很快(有例外,下面會講到)。所以優化語句基本上都是在優化rows。

執行計劃:讓mysql預估執行操作(一般正確)
    all < index < range < index_merge < ref_or_null < ref < eq_ref < system/const
    id,email

    慢:
        select * from userinfo3 where name=‘alex‘

        explain select * from userinfo3 where name=‘alex‘
        type: ALL(全表掃描)
            select * from userinfo3 limit 1;
    快:
        select * from userinfo3 where email=‘alex‘
        type: const(走索引)

http://blog.itpub.net/29773961/viewspace-1767044/

十 慢查詢優化的基本步驟

0.先運行看看是否真的很慢,註意設置SQL_NO_CACHE
1.where條件單表查,鎖定最小返回記錄表。這句話的意思是把查詢語句的where都應用到表中返回的記錄數最小的表開始查起,單表每個字段分別查詢,看哪個字段的區分度最高
2.explain查看執行計劃,是否與1預期一致(從鎖定記錄較少的表開始查詢)
3.order by limit 形式的sql語句讓排序的表優先查
4.了解業務方使用場景
5.加索引時參照建索引的幾大原則
6.觀察結果,不符合預期繼續從0分析

十一 慢日誌管理

        慢日誌
            - 執行時間 > 10
            - 未命中索引
            - 日誌文件路徑

        配置:
            - 內存
                show variables like ‘%query%‘;
                show variables like ‘%queries%‘;
                set global 變量名 = 值
            - 配置文件
                mysqld --defaults-file=‘E:\wupeiqi\mysql-5.7.16-winx64\mysql-5.7.16-winx64\my-default.ini‘

                my.conf內容:
                    slow_query_log = ON
                    slow_query_log_file = D:/....

                註意:修改配置文件之後,需要重啟服務

日誌管理

MySQL日誌管理
========================================================
錯誤日誌: 記錄 MySQL 服務器啟動、關閉及運行錯誤等信息
二進制日誌: 又稱binlog日誌,以二進制文件的方式記錄數據庫中除 SELECT 以外的操作
查詢日誌: 記錄查詢的信息
慢查詢日誌: 記錄執行時間超過指定時間的操作
中繼日誌: 備庫將主庫的二進制日誌復制到自己的中繼日誌中,從而在本地進行重放
通用日誌: 審計哪個賬號、在哪個時段、做了哪些事件
事務日誌或稱redo日誌: 記錄Innodb事務相關的如事務執行時間、檢查點等
========================================================
一、bin-log
1. 啟用
# vim /etc/my.cnf
[mysqld]
log-bin[=dir\[filename]]
# service mysqld restart
2. 暫停
//僅當前會話
SET SQL_LOG_BIN=0;
SET SQL_LOG_BIN=1;
3. 查看
查看全部:
# mysqlbinlog mysql.000002
按時間:
# mysqlbinlog mysql.000002 --start-datetime="2012-12-05 10:02:56"
# mysqlbinlog mysql.000002 --stop-datetime="2012-12-05 11:02:54"
# mysqlbinlog mysql.000002 --start-datetime="2012-12-05 10:02:56" --stop-datetime="2012-12-05 11:02:54" 

按字節數:
# mysqlbinlog mysql.000002 --start-position=260
# mysqlbinlog mysql.000002 --stop-position=260
# mysqlbinlog mysql.000002 --start-position=260 --stop-position=930
4. 截斷bin-log(產生新的bin-log文件)
a. 重啟mysql服務器
b. # mysql -uroot -p123 -e ‘flush logs‘
5. 刪除bin-log文件
# mysql -uroot -p123 -e ‘reset master‘ 


二、查詢日誌
啟用通用查詢日誌
# vim /etc/my.cnf
[mysqld]
log[=dir\[filename]]
# service mysqld restart

三、慢查詢日誌
啟用慢查詢日誌
# vim /etc/my.cnf
[mysqld]
log-slow-queries[=dir\[filename]]
long_query_time=n
# service mysqld restart
MySQL 5.6:
slow-query-log=1
slow-query-log-file=slow.log
long_query_time=3
查看慢查詢日誌
測試:BENCHMARK(count,expr)
SELECT BENCHMARK(50000000,2*3);

索引原理與慢查詢優化(2)