索引本质

MySQL官方解释:索引是为MySQL提高获取数据效率的数据结构,为了快速查询数据。索引是满足某种特定查找算法的数据结构,而这些数据结构会以某种方式指向数据,从而实现高效查找数据。

B+树

MySQL一般以B+树作为其索引结构,那么B+树有什么特点呢?

树度为n的话,每个节点指针上限为2n+1

非叶子节点不存储数据,只存储指针索引;叶子节点存储所有数据,不存储指针

在经典B+树基础上增加了顺序访问指针,每个叶子节点都有指向相邻下一个叶子节点的指针,如图所示。主要为了提高区间访问的性能,例如要找key为20到50的所有数据,只要按着顺序访问路线一次性访问所有数据节点。

带顺序访问的B+树简图

局部性原理和磁盘预读

那么为什么数据库系统普遍使用B+树作为索引结构,而不选例如红黑树其他结构呢?首先要先来介绍下局部性原理和磁盘预读的概念。

一般来说,索引本身较大,不会全部存储在内存中,会以索引文件的形式存储在磁盘上。所以索引查找数据过程中就会产生磁盘IO操作,而磁盘IO相对于内存存取非常缓慢,因此索引结构要尽量减少磁盘IO的存取次数。

为了减少磁盘IO,磁盘往往会进行数据预读,会从某位置开始,预先向后读取一定长度的数据放入内存,即局部性原理。因为磁盘顺序读取的效率较高,不需要寻道时间,因此可以提高IO效率。

预读长度一般为页的整数倍,主存和磁盘以页作为单位交换数据。当需要读取的数据不在内存时,触发缺页中断,系统会向磁盘发出读取磁盘数据的请求,磁盘找到数据的起始位置并向后连续读取一页或几页数据载入内存,然后中断返回,系统继续运行。而一般数据库系统设计时会将B+树节点的大小设置为一页,这样每个节点的载入只需要一次IO。

MySQL索引实现

MySQL存在多种存储引擎的选择,不同存储引擎对索引的实现是不同的,本章着重对常见存储引擎InnoDB和MyISAM存储引擎的索引实现进行讨论。

InnoDB索引实现

InnoDB中数据文件和索引文件是分别存储在表空间里。

使用B+树作为索引结构,数据文件本身就是索引文件。数据文件按照B+树的结构进行组织,叶节点的data域存储完整的数据记录,索引的key即为表的主键。下图为主键索引示意图(盗图一波)。聚集索引使得搜索主键非常高效。

InnoDB主索引.png

数据文件本身按主键索引,因此InnoDB必须要有主键。没有主键怎么指定主键?

下图为辅助索引示意图,InnoDB辅助索引的data域存储的是主键的值。搜索辅助索引需要先根据辅助索引获取到主键值,再根据主键到主索引中获取到对应的数据记录。

InnoDB辅助索引.png

MyISAM索引实现

同样也是使用B+树作为索引结构,叶子节点data域存储的是数据记录的地址。数据文件和索引文件是分别存储在xxx.MYD和xxx.MYI(xxx表示数据表名),索引文件xxx.MYI保存数据记录的地址,具体可参考MySQL存储引擎简介。如图所示(盗了个图),为主索引的示意图。MyISAM中检索索引算法为:首先按照B+树搜索算法搜索,如果找到指定的key,取出其data域的值,再以data域值为地址查找对应的数据记录。因此MyISAM的索引方式也称为非聚集索引。