mysql 索引树高度变化流程

转载

智能探索者 2024-10-21 14:40:08

文章标签 mysql 索引树高度变化流程 mysql b树数据库数据 文章分类 MySQL 数据库

提起索引，大家都知道，建立索引可以让数据库查询更快，那么索引究竟是什么？我想这就不是每个人都能说得出来了。索引，是数据库管理系统中一个排序的数据结构，并用以协助快速查询、更新数据库表中数据。是的，索引是一种数据结构，但是那么多的数据结构中为何MySQL要选择B+树呢？接下来就让我们一起来了解下B+树相对于其他数据结构有何独特之处！

二分查找法(Binary Search)

首先让我们自己想一想，如果让我们去设计，我们会怎么去存储？我想大部分人想到就是用链表或者数组去存储数据，然后再按默认的顺序排好，再去查找，而一个排好顺序的链表我们就可以通过二分查找法来高效查询。

二分查找也称折半查找，是一种效率较高的查找方法。比如有1-10十个数，我们要找到8，先从中间开始找5，然后发现8比5大，可以把5左边的数去掉，剩下6-10，再从中间开始找，依次类推，直到找到8为止。但是这种查找法有一个前提是数据必须是有序的，而且这种属于链表式的存储，我们一但要插入或者修改一个数据，可能会伴随着大量的下标移动，比如我们把1-10放在数组里面，下标分别对应0-9，然后现在要插入一个0，为了保证有序，0必须排在第一位，那么1-10所有的数据下标都要往后移动一位，这种就有点大动干戈了，所以为了解决这个问题，我们就有了二叉树。

二叉查找树(BST）

二叉查找树简称二叉树(BST)，英文全称：Binary Search Tree，这是一种什么样的数据结构呢？请看下图

mysql 索引树高度变化流程_mysql

在上面这棵树中，我们要找到8，先从根节点6开始比较，发现8比6大，就往右边走，就可以找到8

二叉树的特点

二叉树有两个特点： 1、左子树所有的节点都小于父节点 2、右子树所有的节点都大于父节点

二叉树存在的问题

二叉树有一个严重的问题，那就是它的查找耗时是和这棵树的深度相关的，在最坏的情况下时间复杂度会退化成 O(n)。如下图：

mysql 索引树高度变化流程_mysql_02

上面就是一种极端情况下的二叉树，会退化成线性链表，这种如果要找到最后一个数6，就要从1开始遍历完整棵树，效率就会非常低。那么有没有一种相对平衡一点，不要出现这种极端情况的数据结构呢，所以就有了平衡二叉树。

平衡二叉树(AVL Tree)

平衡二叉树，英文全名叫做 Balanced binary search trees，简称AVL树，这个AVL并不是英文名的简称，而是发明者(G. M. Adelson-Velsky和E. M. Landis)两个人的人名缩写，请看下图一个平衡二叉树示例：

mysql 索引树高度变化流程_数据_03

上图中也是从1开始插入6，如果是二叉树就会变成一种线性结构，但是平衡二叉树就会通过左旋和右旋操作，最终会生成上图所示的结构

平衡二叉树的特点

平衡二叉树相比较二叉树具有一个特点就是：左右子树深度差绝对值不能超过 1，当然，平衡二叉树首先是一颗二叉树，只不过通过左旋和右旋实现左右子树深度差不超过1，避免了二叉树的极端情况的出现。

MySQL为何不选择平衡二叉树

既然平衡二叉树解决了普通二叉树的问题，那么mysql为何不选择平衡二叉树作为索引呢?

索引需要存储什么

让我们想一想，如果我们要把索引存起来，那么应该存哪些信息呢，它应该存储三块信息：

索引的值：就是表里面索引列对应的值。
数据的磁盘地址(通过磁盘地址找到当前数据)或者直接存储整条数据。
子节点的引用：我们需要从根节点往下走，所以需要知道左右子节点的地址。根据这三点，可以有如下大致的一个简单的结构图：

mysql 索引树高度变化流程_数据库_04

上图中数字表示的是索引的值，0x开头的表示磁盘地址，根节点中存了左右节点的引用。

AVL树用来存储索引存在什么问题

我们知道，页（Page）是 Innodb 存储引擎用于管理数据的最小磁盘单位，页的默认大小为16KB（InnoDB引擎的存储结构后续我会专门写一篇来讲解，请关注我，和孤狼一起学习进步。）。页也就是上图中的节点，每查询一次节点就需要进行一次IO操作，IO操作是一种非常耗时的操作，很多业务系统的瓶颈都是卡在IO操作上，所以如果我们需要提高查询效率的办法之一就是减少IO次数，那么问题就来了，AVL树一个节点上只存了一个关键字(索引值)+一个磁盘地址+左右节点的引用，这是远远达不到16KB的，会浪费了大量的空间。

上图中如果我们要找到6这条数据，需要进行3次IO(获取一个节点就是一个IO操作)，如果这棵树很高的话，就会进行大量的IO操作，所以说AVL树存在的最大问题就是空间利用不足，浪费了大量空间，数据量大的时候就会成为一颗瘦高的树，那么我们可以怎么改进呢？答案很明显了，那就是每个磁盘块多存一点东西，也就是说每个磁盘多存几个关键字，因为关键字越多，路数越多；路数越多，树也就越矮越胖，相应的操作IO次数就会越少。

多路平衡树(Balanced Tree)

多路平衡树简称B树，又称B-树，和AVL树一样，B树在枝节点和叶子节点存储键值、磁盘地址、左右节点引用。请看下图的一个多路平衡树的示例：

mysql 索引树高度变化流程_mysql 索引树高度变化流程_05

B树的特点

相比较AVL树，B树一个磁盘上可以存多个关键字(值)，而且有一个特点就是：

分叉数（路数）永远比关键字数多1。我们可以画出如下简图(下图中只画了3路，即两个关键字，实际取决于一页能存储多少个关键字)：

mysql 索引树高度变化流程_mysql_06

从上图可以很明显的看出，同样高度的树，B树能存的数据远远大于平衡二叉树。

B树是如何查找数据的

以上图为例，假如我们要找key=32这个数字，首先获取到根节点，发现18小于key，所以往右边走，获取到右边的数据，54和76，这时候遵循以下原则：

key<54,命中最左边分叉；
key=54,直接命中，返回数据；
54<key<76,走中间的一个分叉；
key=76,直接命中，返回数据；
key>76，命中右边分支；这里因为key=32，所以走得是第1条，命中左边分支，这时候再去获取左边分支，获取到32和50，比较发现key=32，命中，返回数据。

从上面我们可以看出B树效率相对于AVL树，在数据量大的情况效率已经提高了很多，那么为什么MySQL还是不选择B树作为索引呢？那么接下来让我们先看看改良版的B+树，然后再下结论吧！

B+树

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql重启后表少了

下一篇：mysql 的session是什么

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯