概述

索引(Index)是帮助 MySQL 高效获取数据有序 数据结构。在数据之外,数据库系统还维护这满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。

索引的优劣:

mysql索引节点大小 mysql 索引 结构_mysql索引节点大小

索引结构

mysql索引节点大小 mysql 索引 结构_B+Tree_02

空间索引和全文索引使用较少,这里不多赘述。

B+Tree 索引

B+树是使用最多的树,在介绍B+树之前,我们先康康 二叉搜索树

mysql索引节点大小 mysql 索引 结构_索引_03

比起线性遍历,二叉遍历的方式显然就很快,最优情况就是如上的满二叉树,但是最差情况即插入的数据是升序或降序的时候,二叉搜索树就会变为线性遍历,如图:

mysql索引节点大小 mysql 索引 结构_索引_04

为避免这种问题,我们可能就会想到用红黑树,如图:

mysql索引节点大小 mysql 索引 结构_mysql索引节点大小_05

但是它依旧只是确保从根到叶子的最长的可能路径不多于最短的可能路径的两倍长,当数据量达到一定程度时,红黑树的层数就会很大,导致效率降低。看来二叉树的能力是有极限的啊,那不做二叉树不就好了,因此引入了 多路平衡查找树(B-Tree):

B-Tree 的特点在于它可以有多个子树,比如一个 5 阶的 B-Tree,它就可以最多存储 4 个 key,5 个指针,如图:

mysql索引节点大小 mysql 索引 结构_sql_06

当我们在满节点插入一个 key 时,这个节点的中位数就会单独变成一个节点,并且将左右的两个数变成两个它的子节点,当子节点满时,重复以上流程,多出来的中位数会进入父节点中,父节点满了在生成父子节点,如图:

mysql索引节点大小 mysql 索引 结构_mysql索引节点大小_07

mysql索引节点大小 mysql 索引 结构_索引_08

mysql索引节点大小 mysql 索引 结构_mysql索引节点大小_09

mysql索引节点大小 mysql 索引 结构_索引_10

 而 B-Tree 依然存在一个问题,那就是数据和指针是存在一起的,对于一个指定大小的节点,能存储的指针和数据就很有限,因此在 B-Tree 的基础上又提出了 B+Tree

B+Tree 和 B-Tree 最大的不同是它将所有的数据都存放在了叶子节点,叶子节点间形成了一个单向链表,这样非叶子节点就有更多的空间来存放指针,如图:

mysql索引节点大小 mysql 索引 结构_B+Tree_11

B+Tree 的分裂方式类似于 B-Tree,但是会在分裂时分裂出去的中位数也会在叶子节点出现,如图:

mysql索引节点大小 mysql 索引 结构_sql_12

 

mysql索引节点大小 mysql 索引 结构_sql_13

 而 MySQL 的 B+Tree,在 B+Tree 上,将叶子结点的单项链表改成了双向,以提高访问性能,如图:

mysql索引节点大小 mysql 索引 结构_索引_14

Hash 索引

hash 索引就是采用一定的 hash 算法,将键值换算成新的 hash值,映射到对应的槽位上,然后存储在 hash表中。如果两个(或多个)键值映射到同一个槽位上,我们就产生了 hash冲突(也称为 hash碰撞),可以通过链表解决,即在对应槽位后面再添加一个节点,如图 :

mysql索引节点大小 mysql 索引 结构_B+Tree_15

特点:

  1. hash索引只能用于对等比较(=,in),不支持范围查询(between,>,<,...)
  2. 无法利用索引完成排序操作
  3. 查询效率高,通常只需要依次检索就可以了,效率通常要高于 B+Tree索引(发生hash冲突时可能会低于 B+Tree索引)

在 MySQL 中,支持 hash索引的引擎是 Memory引擎,而 InnoDB中具有自适应 hash功能,hash索引是在存储引擎根据 B+Tree索引在指定条件下自动构建的。

思考:

为什么 InnoDB存储引擎选择使用 B+Tree索引结构?

  1. 相对于二叉树,层级更多,搜索效率高。
  2. 对于 B-Tree,无论是叶子节点还是非叶子节点,都会保存数据,这样导致一旦页中存储的键值减少,指针也会跟着减少,要同样保存大量数据,只能增加数的高度,导致性能降低。
  3. 相对 hash索引,B+Tree 支持范围匹配及排序操作。

本文整理自:黑马程序员 MySQL数据库入门到精通,从mysql安装到mysql高级、mysql优化全囊括_哔哩哔哩_bilibili