Mysql存储引擎说明
mysql的存储引擎有两种,InoDB(聚簇性索引),MySIAM(非聚簇性索引)
这里聚簇性和非聚簇性,含义指的是什么,我们先要理解InoDB和MySIAM的存储结构。
存储引擎 | 结构文件 | 是否支持事务 | 存储空间 |
InoDB | frm(表结构定义文件) idb(索引和数据) | 支持 | 小 |
MySIAM | frm (表结构定义文件) MYYD(数据) MYYI(索引) | 不支持 | 大 |
顾名思义聚簇性索引就是索引和数据放在一起。同时InoDB支持事务,但是MySIAM不支持。所以市面上大部分业务性系统都会采用InoDB。
在InoDB中,frm结构文件和MySIAM中frm几乎一样,没有什么区别。但是idb文件中包含了索引文件和存储的数据。MYYD(数据) MYYI(索引)数据和索引是分开的。
文件 | 存储内容 |
idb | 主键索引 非主键索引 数据 |
MYYI | 索引 |
MYYD | 数据 |
在idb中索引被分成两类-主键索引 、非主键索引。 主键索引是在记录插入时自动创建。非主键索引一般是我们进行性能优化时手动创建。同时非主键索引的节点存储的主键索引的key,主键索引的节点指向 数据。也就是说,通过非主键索引查询数据时,在InoDB中会先定位非主键索引的key,然后取得主键索引的key,最后通过主键索引取到数据。虽然结构稍微复杂了一点,但是很节省存储空间。
但是在MYYI中,只存储了索引,先去查索引,节点中存储的是数据在MYYD中的内存位置。在去指定的内存位置取得数据。
索引结构推导
几乎了解过索引的都知道,索引的底层数据结构是B+树,但是为什么使用B+树,而不是B树或者红黑树和AVL树。
推导的起始点是二叉查找树(BST),二叉查找树的时间复杂度是 O(lgn),极端情况下会退化为线性链表,二分查找也会退化为遍历查找,时间复杂退化为 O(N),检索性能急剧下降。
接下来就是AVL树和红黑树,
红黑树是一个相对平衡树,右节点比根节点大,左节点比根节点小。所以插入数据,结构变换简单,最多三次旋转就可以形成新的树,但是在海量的数据插入后,难免会出现左倾或者右倾的现象,所以数据越多,查询效率越低。
针对于AVL树来说,查询效率肯定是高的,对于整个树来说都是绝对平衡的,所以插入数据后变换很复杂,因此插入效率效率极其低下。
所以我们会引入一种的数据结构叫做B树。B树的一个节点会有多个key,当key数量大于限制值,会进行分裂,形成一个新的节点。而且B+的时间复杂度是O(h log n) ,h是树的高度,n是节点数。所以在大量数据的情况下,查询效率依旧很优秀。
但是数据库的索引还要解决一个问题就是范围查询,虽然B树的节点也是顺序的,但是还是需要引入B+树,将所有节点顺序串联在一起,这样就进一步提升了范围查询效率。