这一章主要讲索引的一些应用规则。
7.1
CREATE TABLE single_table (
id INT NOT NULL AUTO_INCREMENT,
key1 VARCHAR(100),
key2 INT,
key3 VARCHAR(100),
key_part1 VARCHAR(100),
key_part2 VARCHAR(100),
key_part3 VARCHAR(100),
common_field VARCHAR(100),
PRIMARY KEY (id),
KEY idx_key1 (key1),
UNIQUE KEY uk_key2 (key2),
KEY idx_key3 (key3),
KEY idx_key_part(key_part1, key_part2, key_part3)
) Engine=InnoDB CHARSET=utf8;
这个表以后的章节也会大量使用。
7.2
索引虽然可以方便我们快速查找,但维护索引也是有代价的。
空间上,我们肯定需要单独的空间去维护索引。
时间上,当我们对记录进行修改操作时,索引也要跟着变化。
此外,执行查询前需要生成查询计划。每个查询计划中,通常只会用最多一个二级索引。
如果我们建立大量的索引,会使得分析查询计划开销的过程变慢。
7.3
扫描区间
select * from single_table where id >= 2 and id <= 100;
这个sql的扫描区间是[2, 100],边界条件是 id >= 2 and id <= 100
select * from single_table where key2 in (1438, 6328) or (key2 >= 38 and key2 <= 79);
其中 1438 6328这两个点本身也算扫描区间,叫做单点扫描区间。边界条件就是 [1438, 1438]这种。
并不是所有搜索条件都可以成为边界条件。比如 where key1 < ‘a’。扫描区间是负无穷到’a’的开区间。
这种时候就没有什么边界条件一说了。
综上,在使用某个索引执行查询时,关键的问题就是通过搜索条件找出合适的扫描区间,然后再到对应的B+树中扫描索引列值在这些扫描区间的记录。要先找出所有可用的索引和扫描区间,然后综合选择。
所有搜索条件都可以生成合适的扫描区间
select * from single_table where key2 > 100 and key2 > 200;
select * from single_table where key2 > 100 or key2 > 200;
这两个sql中,搜索条件都是可以用来帮助减小搜索范围的。
有的搜索条件不能生成合适的扫描区间
select * from single_table where key2 > 100 and common_field = 'abc';
这个sql里,common_field字段不能帮助减少任何扫描范围,因为key2上的索引不涉及common_field
相当于一个[100, INF] 和 (-INF, INF) 的交集。
这种时候,我们可以直接把第二个搜索条件视为true。
从复杂的搜索条件中找出扫描区间
select * from single_table where
(key1 > 'xyz' and key2 = 748) or
(key1 < 'abc' and key1 > 'lmn') or
(key1 like '%suf' and key1 > 'zzz' and (key2 < 8000 or common_field = 'abc'));
这个sql可以说是很复杂了。但是我们也就可能使用key1的索引或key2的索引。
假设我们用key1的索引,则可以化简为
(key1 > 'xyz' and true) or (key1 < 'abc' and key1 > 'lmn') or (true and key1 > 'zzz' and (true or true))
(key1 > 'xyz') or (key1 < 'abc' and key1 > 'lmn') or (key1 > 'zzz')
(key1 > 'xyz') or (key1 > 'zzz')
key1 > 'xyz'
这样不断化简就可以了。
同理,对key2分析的话,过程如下
(true and key2 = 748) or (true and true) or (true and true and (key2 < 8000 or true))
true
使用联合索引执行查询时对应的扫描区间
select * from single_table where key_part1 = 'a';
我们可以定位到=a的第一条记录,然后往后一条条扫描。
select * from single_table where key_part1 = 'a' and key_part2 = 'b';
道理和上面的一样。定位到符合条件的第一条记录往后扫描即可。
select * from single_table where key_part1 = 'a' and key_part2 = 'b' and key_part3 = 'c';
同上
select * from single_table where key_part1 < 'a';
对于这个搜索条件,我们要找到第一个小于’a’的记录,然后向后扫描,直到某个记录不符合条件为止。
select * from single_table where key_part1 = 'a' and key_part2 > 'a' and key_part2 < 'd';
我们还是定位到第一条符合条件的记录,然后向后查询,直到不满足条件为之
select * from single_table where key_part2 = 'a';
不符合最左前缀,我们只能全都扫描了。
select * from single_table where key_part1 = 'a' and key_part3 = 'c';
这里也是不完全符合最左前缀,先定位到满足part1='a’的第一条记录,然后往后一条条查找,直到不符合part1 = 'a’结束
select * from single_table where key_part1 < 'b' and key_part2 = 'a';
从满足part1 < 'b’的第一条记录开始往后扫描。直到某条记录不满足part1 < ‘b’。
select * from single_table where key_part1 <= 'b' and key_part2 = 'a';
当扫描到一条part1 = 'b’且part2 != 'a’的记录时就可以停止。因为part123是有序的。
索引用于排序
在MySQL中,在内存/磁盘中进行排序的方式称为文件排序。但由于索引本身是有序的,因此在索引上进行查找的时候,我们有可能省略排序的步骤。比如在主键上搜素 或者联合索引是覆盖索引的情况。
注意,使用联合索引进行排序时,如果想让索引帮助我们省略排序的步骤,则order by中列的顺序要与索引中的一致。
不可以使用索引进行排序的几种情况
1 asc desc混用。这个在mysql 8.0中支持了,引入了descending index,之前都是不支持的。
2 排序列包含非同一个索引的列
select * from single_table order by key1, key2 limit 10;
这个例子里,就不能使用索引排序了。
3 排序列是某个联合索引的索引列,但这些排序列的顺序和联合索引中的不一样。
4 用来形成扫描区间的索引列和排序列不一样
select * from single_table where key1 = 'a' order by key2 limit 10;
用key1形成扫描区间,然后用key2排序。
5 排序列不是以单独列名的形式出现在order by子句中。
select * from single_table order by upper(key1) limit 10;
索引用于分组
select key_part1, key_part2, key_part3, count(*) from single_table group by key_part1, key_part2, key_part3;
如果没有idx_key_part索引,就得建立一个用于统计的临时表,在扫描聚簇索引的记录时将统计的中间结果填入这个临时表。
但现在有联合索引,所以不用建立临时表了。
7.4
正常的扫描全表虽然没有搜索加速,但是磁盘io是顺序的,相对较快。
可每次回表,因为主键值是没有规律的,因此回表时的磁盘io是随机的。
因此,在扫描大量的列时,回表带来的开销可能比顺序扫描全表更大。
查询优化器会做这方面的工作,看看到底是用二级索引+回表还是直接在聚簇索引上扫描。
7.5
这一节举出了一些用索引的小tips
- 只为用于搜索、排序、连接、分组的列创建索引
- 考虑索引列中不重复值的个数
这里解释一下,比如性别只有两个值,如果对性别建索引,则索引几乎不会帮我们加快查找,那二级索引+回表的查找方式会显得格外的亏。如果势比较高的情况下,二级索引+回表相对来说不会那么亏 - 索引列的类型尽量小
尤其是主键,小的话二级索引占用的空间就会笑,B+树消耗的页面也相对少 - 为列前缀建立索引
alter table single_table drop index idx_key1;
alter table single_table add index idx_key1 (key1(10));
比如varchar列太长,我们可以只对前10个字母建立索引。这样省空间,但是不能用来简化排序了
- 覆盖索引
指索引包含全部要查询的列。我们可以把常用的组合建个联合索引,减少回表开销 - 让索引以列名的形式在搜索条件中单独出现
select * from single_table where key2 * 2 < 4;
select * from single_table where key2 < 4/2;
第一种不会走索引的
- 新插入的值最好在已有区间外
比如插入到最左或最右端,这样可以避免内部大规模的分裂,最多影响一下边上 - 冗余和重复索引
联合索引或者主键索引已经覆盖的列,通常没必要再建立单独的索引了