一、什么是索引
索引(Index)是帮助MySQL高效获取数据的数据结构。可以得到索引的本质:索引是一种数据结构
--可以理解为“排好序的快速查找数据结构”(两个功能:排序;查找)--B+树的特点
--在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以依据这些数据结构实现高效的查找算法,这种数据结构就是索引。
二、 索引的优势
类似大学图书馆建书目索引,提高数据检索效率,降低数据库的IO成本。
--若数据表不建索引,则查找时就必须全表扫描,如有1000行的数据,则查询一条数据平均在磁盘上IO的次数就是500次。而若使用B+树建索引,树的层数为7层,最多只需要在磁盘上IO查询7次。可以看出大大降低了查询时磁盘IO的次数。
通过索引对数据进行排序,降低数据排序的成本,降低了CPU的消耗。
--由于B+树每块都是按序排列,且由其数据结构特点数据整体也是极其有规律,因此排序起来也非常方便。
三、索引的劣势
实际上索引也是一张表,该表保存了主键与索引字段,并指向实体表的记录,所以索引列也是要占空间的。
虽然索引大大提高了查询速度,同时确会降低更新表的速度,如对表进行INSERT、UPDATE、DELETE。
因为更新表时,MySQL不仅要保存数据,还要保存一下索引文件每次更新添加了索引列的字段,
都会调整因为更新所带来的键值变化后的索引信息。
四、索引的分类
单值索引: 即一个索引只包含单个列,一个表可以有多个单值索引。
唯一索引: 索引的列的值必须是唯一的,但允许有空值。
复合索引: 即一个索引包含多个列。
五、基本语法
六、MySQL主要索引结构
1. B+Tree
2. Hash
七、为什么MySQL选用B+树作为索引的数据结构
比B树更适合作为索引的结构是B+树。MySQL中也是使用B+树作为索引。它是B树的变种,因此是基于B树来改进的。为什么B+树会比B树更加优秀呢?
B树:有序数组+平衡多叉树;
B+树:有序数组链表+平衡多叉树;
B+树的关键字对应的指针数据全部存放在叶子节点中,非叶子节点用来做索引,而叶子节点中有一个指针指向一下个叶子节点。做这个优化的目的是为了提高区间访问的性能。而正是这个特性决定了B+树更适合用来存储外部数据。
引用一段话:
走进搜索引擎的作者梁斌老师针对B树、B+树给出了他的意见(为了真实性,特引用其原话,未作任何改动): “B+树还有一个最大的好处,方便扫库,B树必须用中序遍历的方法按序扫库,而B+树直接从叶子结点挨个扫一遍就完了,B+树支持range-query非常方便,而B树不支持。这是数据库选用B+树的最主要原因。
比如要查 5-10之间的,B+树一把到5这个标记,再一把到10,然后串起来就行了,B树就非常麻烦。B树的好处,就是成功查询特别有利,因为树的高度总体要比B+树矮。不成功的情况下,B树也比B+树稍稍占一点点便宜。
B树比如你的例子中查,17的话,一把就得到结果了,
有很多基于频率的搜索是选用B树,越频繁query的结点越往根上走,前提是需要对query做统计,而且要对key做一些变化。
另外B树也好B+树也好,根或者上面几层因为被反复query,所以这几块基本都在内存中,不会出现读磁盘IO,一般已启动的时候,就会主动换入内存。”
举个例子来对比。
B树:
该图以及下一张图均来自博文《浅谈算法和数据结构: 十 平衡查找树之B树》,链接文章最后。
比如说,我们要查找关键字范围在3到7的关键字,在找到第一个符合条件的数字3后,访问完第一个关键字所在的块后,得遍历这个B树,获取下一个块,直到遇到一个不符合条件的关键字。遍历的过程是比较复杂的。
B+树:
相比之下,B+树的基于范围的查询简洁很多。由于叶子节点有指向下一个叶子节点的指针,因此从块1到块2的访问,通过块1指向块2的指针即可。从块2到块3也是通过一个指针即可。
引用一篇博文中网友评论的一段话:
数据库索引采用B+树的主要原因是B树在提高了磁盘IO性能的同时并没有解决元素遍历的效率低下的问题。正是为了解决这个问题,B+树应运而生。B+树只要遍历叶子节点就可以实现整棵树的遍历。而且在数据库中基于范围的查询是非常频繁的,而B树不支持这样的操作(或者说效率太低)。
正如上面所说,在数据库中基于范围的查询是非常频繁的,因此MySQL最终选择的索引结构是B+树而不是B树。
八、 索引使用的场合
1. 什么情况适合建索引
- 主键自动创建唯一索引
- 频繁作为查询条件的字段应当创建索引
- 查询中与其他表关联的字段,即外键适合适合创建索引
- 查询中排序的字段适合创建索引。因为排序字段若通过索引去访问将大大提高排序速度
- 查询中统计或者分组的字段适合创建索引
2. 什么情况不适合创建索引
- 频繁更新的字段,经常增,删,改的字段,不适合建索引
- where条件里用不到的字段不用创建索引
- 如果某个数据列有大量重复的内容,就不用建立索引就没有太大的意义
参考博客:
MySQL高级-索引
MySQL索引介绍