众所周知,对数据库建立索引会提高查询效率,而有很多情况会导致引擎放弃使用索引。比如使用字符串截取函数substr(),使用格式转换函数LOWER(),使用IN等。网上甚至有人说只要使用了数据库函数就会导致该情况,真的是这样吗?
首先,让我们看看什么是索引。我觉得可以将聚集索引比喻为知道一个英文单词拼写,然后在字典里查询该词。比如"orange"这个单词,从首字母开始查找,在"n"和"p“之间找到"o"。然后再找第二个字母,在"q"和"s"之间找到"r"。当所有字母查找完毕,也就找到该单词了(因为这样的索引顺序是唯一的,所以一个数据库只能有一个聚集索引)。我觉得不管是聚集索引还是非聚集索引,都会有一个“字典”顺序。什么情况会破坏这种“字典”顺序呢?如果截取了字符串的后半段,失去了前面的字符,当然不能再按照“字典”顺序来查询了。如果索引是区分大小写的,使用LOWER()函数自然使得字符串不能再按索引顺序检索。反之,如果不破坏这种“字典”顺序,是不是就可以使用索引了呢?
以字符串截取函数substr()为例,如果我从首字符开始截取字符串,那么子串依旧有“字典“顺序,是否还能使用索引?为此,我设计了以下实验:
一、实验环境:
数据库:MySQL
数据:一张表格,含有两列:hostname,num。 hostname是网址,num是该网址被访问的次数。允许不同行有相同的hostname。
在hostname上建立索引:CREATE INDEX hn on test(hostname);(默认为非聚集索引)
二、实验内容
1.使用substr()函数从首字符截取hostname,用EXPLAIN查看数据库是否使用检索。使用substr()函数从中间截取hostname。
2.使用正则表达式,从字符串首开始匹配,比如:LIKE 'abc%'。匹配字符串中间段,比如:LIKE '%abc%'。
3.使用IN
4.统计表格中的网站数,COUNT(DISTINCT hostname)
5.统计每个网站的访问数,SUM(num) GROUP BY hostname
三、实验结果
1.验证substr()
(1)explain select * from test where substr(hostname,1,2)='qq';
结果:
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
| 1 | SIMPLE | test | ALL | NULL | NULL | NULL | NULL | 10989649 | Using where |
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
可以看出,即使从首字符截取,查询仍没有使用索引。
那么从中间截取字符串就更没理由使用索引了。
(2)explain select * from test where substr(hostname,4,3)='com';
结果:
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
| 1 | SIMPLE | test | ALL | NULL | NULL | NULL | NULL | 10989649 | Using where |
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
和预期的一样,没有使用索引。
2.验证正则表达式
(1)explain select * from test where hostname like 'qq%';
结果:
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
| 1 | SIMPLE | test | ALL | hn | NULL | NULL | NULL | 10989649 | Using where |
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
可以看出,虽然 possible_keys里显示了索引名称,但key的值是NULL,所以实际上没有使用索引。
(2)explain select * from test where hostname like '%qq%';
结果:
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
| 1 | SIMPLE | test | ALL | NULL | NULL | NULL | NULL | 10989649 | Using where |
+----+-------------+-------+------+---------------+------+---------+------+----------+-------------+
这下连| possible_keys都是空了。
3.验证IN
explain select * from test where hostname in ('qq.com');
结果:
+----+-------------+-------+------+---------------+------+---------+-------+---------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+-------+---------+-------------+
| 1 | SIMPLE | test | ref | hn | hn | 38 | const | 4245724 | Using where |
+----+-------------+-------+------+---------------+------+---------+-------+---------+-------------+
使用了索引,而且type是ref。
4.验证COUNT()函数
explain select count(distinct hostname) from test ;
结果:
+----+-------------+-------+-------+---------------+------+---------+------+----------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+-------+---------------+------+---------+------+----------+-------------+
| 1 | SIMPLE | test | index | NULL | hn | 38 | NULL | 10989649 | Using index |
+----+-------------+-------+-------+---------------+------+---------+------+----------+-------------+
使用了索引,而且type是index。
5.验证SUM()函数
(1)explain select sum(num) as num from test group by hostname;
结果:
+----+-------------+-------+------+---------------+------+---------+------+----------+---------------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+------+----------+---------------------------------+
| 1 | SIMPLE | test | ALL | NULL | NULL | NULL | NULL | 10989649 | Using temporary; Using filesort |
+----+-------------+-------+------+---------------+------+---------+------+----------+---------------------------------+
没有使用索引
(2)explain select sum(num) as num from test where hostname='qq.com';
+----+-------------+-------+------+---------------+------+---------+-------+---------+-------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+------+---------------+------+---------+-------+---------+-------------+
| 1 | SIMPLE | test | ref | hn | hn | 38 | const | 4245724 | Using where |
+----+-------------+-------+------+---------------+------+---------+-------+---------+-------------+
奇怪的是这里就使用索引了。
四、实验结论
1.从首字符截取或者从首字符匹配,还是不能让数据库使用索引。
2.使用IN不破坏索引使用
3.COUNT()函数不破坏索引使用
4.最奇怪的是使用SUM()函数时,如果where = 子句就使用索引,而group by 就不可以。难道是group by 破坏了索引?我又做了一个实验:
explain select hostname from test group by hostname;
实验结果:
+----+-------------+-------+-------+---------------+------+---------+------+-------+--------------------------+
| id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra |
+----+-------------+-------+-------+---------------+------+---------+------+-------+--------------------------+
| 1 | SIMPLE | test | range | NULL | hn | 38 | NULL | 22428 | Using index for group-by |
+----+-------------+-------+-------+---------------+------+---------+------+-------+--------------------------+
结果显示使用了索引,而且Extra一栏明确显示:Using index for group-by
究竟是什么使得数据库放弃索引了呢