前言: 页是InnoDB
管理存储空间的基本单位,上一章我们主要分析了页中的主要的构成行的存储结构-行格式,其中简单提了一下页
的概念。这章我们详细讲解一下页的存储结构。
一、数据页结构
前边我们简单提了一下页
的概念,它是InnoDB
管理存储空间的基本单位,一个页的大小一般是16KB
。和存储一条条数据的行有多种行格式类似,InnoDB
为了不同的目的而设计了许多种不同类型的页
,比如存放表空间头部信息的页,存放Insert Buffer
信息的页,存放INODE
信息的页,存放undo
日志信息的页等。
本章我们主要聚焦的是那些存放我们表中记录的那种类型的页,官方称这种存放记录的页为索引(INDEX
)页,我们也可以称之为数据页。数据页代表的这块16KB
大小的存储空间可以被划分为多个部分,不同部分有不同的功能,各个部分如图所示:
数据页的数据结构主要为存储数据服务而设计的,所以讲解数据页存储结构先要从数据插入讲起。
二、记录在页中的存储(infimum+Supermum & User Records & Page Directory)
2.1 infimum+Supermum & User Records
我们自己存储的记录会按照我们指定的行格式
存储到User Records
部分。但是在一开始生成页的时候,其实并没有User Records
这个部分,每当我们插入一条记录,都会从Free Space
部分,也就是尚未使用的存储空间中申请一个记录大小的空间划分到User Records
部分,当Free Space
部分的空间全部被User Records
部分替代掉之后,也就意味着这个页使用完了,如果还有新的记录插入的话,就需要去申请新的页了。
上图中的行格式我们省略了上一章的记录头的额外信息(上一章我们已经着重讲了行格式的可变长字段长度列表,NULL值列表和真实数据,基本根据存储数据是不变的),本章重点展示了记录头信息,因为它存储信息和页结构有很大关联。
- delete_mask 这个属性标记着当前记录是否被删除,占用1个二进制位,值为
0
代表记录并没有被删除,为1
代表记录删除。为了节省重排的时间,实际删除一条数据后并没有立即从磁盘删除,所有被删除掉的记录都会组成一个所谓的垃圾链表
,在这个链表中的记录占用的空间称之为所谓的可重用空间
,之后如果有新记录插入到表中的话,可能把这些被删除的记录占用的存储空间覆盖掉。记录被我们删掉后,在一定时间内如果我们再次把这条记录插入到表中,InnoDB
并没有因为新记录的插入而为它申请新的存储空间,而是直接复用了原来被删除记录的存储空间。 - min_rec_mask B+树的每层非叶子节点中的最小记录都会添加该标记,什么是个
B+
树?什么是个非叶子节点?后续第六章索引会介绍到这个问题。 - n_owned 这个数值待会在第五章讲到page directory会详细介绍,主要是为了方便数据的快速查找,数据页存储的一行行数据是按照主键从小到大排序的,查找快速就是分块(4-8条),然后根据二分查找快速定位到每一块数据,再在块中遍历查找。n_owned代表的就是当前这一块数据的条数。
- heap_no 这个属性表示当前记录在本
页
中的位置,从图中可以看出来,我们插入的4条记录在本页
中的位置分别是:2
、3
、4
、5
。最小记录和最大记录的heap_no
值分别是0
和1
,也就是说它们的位置最靠前,这两条记录不是我们自己定义的记录,所以它们并不存放在页
的User Records
部分,他们被单独放在一个称为Infimum + Supremum
的部分。 - record_type 这个属性表示当前记录的类型,一共有4种类型的记录,
0
表示普通记录,1
表示B+树非叶节点记录,2
表示最小记录(infimum),3
表示最大记录(Supermum )。从图中我们也可以看出来,我们自己插入的记录就是普通记录,它们的record_type
值都是0
,而最小记录和最大记录的record_type
值分别为2
和3
。至于record_type
为1
的情况,我们之后在说索引的时候会重点强调的。 - next_record 它表示从当前记录的真实数据到下一条记录的真实数据的地址偏移量,这其实是个单
链表
,可以通过一条记录找到它的下一条记录。下一条记录
指得并不是按照我们插入顺序的下一条记录,而是按照主键值由小到大的顺序的下一条记录。而且规定 Infimum记录(也就是最小记录) 的下一条记录就是本页中主键值最小的用户记录,而本页中主键值最大的用户记录的下一条记录就是 Supremum记录(也就是最大记录) 。
2.2 Page Directory(页目录)
现在我们了解了记录在页中按照主键值由小到大顺序串联成一个单链表,那如果我们想根据主键值查找页中的某条记录,最笨方法就是从Infimum
记录(最小记录)开始,沿着链表一直往后找,这时间复杂度就是O(n)。这样数据量大的话是很费时的,所以mysql研发者就加入了目录的设计(Page Directory):
- 将所有正常的记录(包括最大和最小记录,不包括标记为已删除的记录)划分为几个组。对于最小记录所在的分组只能有 1 条记录(也就是infimum一个组),最大记录所在的分组(也就是maxmum所在的最后一个组)拥有的记录条数只能在 1~8 条之间,剩下的分组中记录的条数范围只能在是 4~8 条之间。
- 之后每插入一条记录,都会从
页目录
中找到主键值比本记录的主键值大并且差值最小的槽,然后把该槽对应的记录的n_owned
值加1,表示本组内又添加了一条记录,直到该组中的记录数等于8个。 - 将每个组的最后一条记录的地址偏移量单独提取出来按顺序存储到靠近
页
的尾部的地方,这个地方就是所谓的Page Directory
,也就是页目录
)。页面目录中的这些地址偏移量被称为槽
(英文名:Slot
),所以这个页面目录就是由槽
组成的。
一个数据页中查找指定主键值的记录的过程分为两步:
- 通过二分法确定该记录所在的槽,并找到该槽所在分组中主键值最小的那条记录。
- 通过记录的
next_record
属性遍历该槽所在的组中的各个记录。
三、文件的头尾信息(File Header & Page Header & File Tailer)
3.1 File Header
File Header
针对各种类型的页都通用,也就是说不同类型的页都会以File Header
作为第一个组成部分,它描述了一些针对各种页都通用的一些信息,比方说这个页的编号是多少,它的上一个页、下一个页是谁之类, 这个部分占用固定的38
个字节,是由下边这些内容组成的:
FIL_PAGE_SPACE_OR_CHKSUM
这个代表当前页面的校验和(checksum)。啥是个校验和?就是对于一个很长很长的字节串来说,我们会通过某种算法来计算一个比较短的值来代表这个很长的字节串,这个比较短的值就称为校验和
。这样在比较两个很长的字节串之前先比较这两个长字节串的校验和,如果校验和都不一样两个长字节串肯定是不同的,所以省去了直接比较两个比较长的字节串的时间损耗。FIL_PAGE_OFFSET
每一个页
都有一个单独的页号,就跟你的身份证号码一样,InnoDB
通过页号来可以唯一定位一个页
。FIL_PAGE_TYPE
这个代表当前页
的类型,我们前边说过,InnoDB
为了不同的目的而把页分为不同的类型,我们上边介绍的其实都是存储记录的数据页
,其实还有很多别的类型的页,如日志页,系统页,事务系统页,索引页(数据页)。。。
-
FIL_PAGE_PREV
和FIL_PAGE_NEXT
我们前边强调过,InnoDB
都是以页为单位存放数据的,有时候我们存放某种类型的数据占用的空间非常大(比方说一张表中可以有成千上万条记录),InnoDB
可能不可以一次性为这么多数据分配一个非常大 的存储空间,如果分散到多个不连续的页中存储的话需要把这些页关联起来,FIL_PAGE_PREV
和FIL_PAGE_NEXT
就分别代表本页的上一个和下一个页的页号。这样通过建立一个双向链表把许许多多的页就都串联 起来了,而无需这些页在物理上真正连着。需要注意的是,并不是所有类型的页都有上一个和下一个页的属性,不过我们的数据页
(也就是类型为FIL_PAGE_INDEX
的页)是有这两个属性的,所以所 有的数据页其实是一个双链表。
3.2 Page Header
InnoDB
的设计者为了能得到一个数据页中存储的记录的状态信息,比如本页中已经存储了多少条记录,第一条记录的地址是什么,页目录中存储了多少个槽等等,特意在页中定义了一个叫Page Header
的部分,它是页
结构的第二部分,这个部分占用固定的56
个字节,专门存储各种状态信息。字段罗列一下(不需要记忆):
PAGE_DIRECTION
假如新插入的一条记录的主键值比上一条记录的主键值大,我们说这条记录的插入方向是右边,反之则是左边。用来表示最后一条记录插入方向的状态就是PAGE_DIRECTION
。PAGE_N_DIRECTION
假设连续几次插入新记录的方向都是一致的,InnoDB
会把沿着同一个方向插入记录的条数记下来,这个条数就用PAGE_N_DIRECTION
这个状态表示。当然,如果最后一条记录的插入方向改变了的话,这个状态的值会被清零重新统计。
3.3 File Tailer
File Trailer主要是为了解决页数据在内存修改后同步到磁盘过程中发生错误导致数据不一致问题
,这个部分由8
个字节组成,可以分成2个小部分:
- 前4个字节代表页的校验和
这个部分是和File Header
中的校验和相对应的。每当一个页面在内存中修改了,在同步之前就要把它的校验和算出来,因为File Header
在页面的前边,所以校验和会被首先同步到磁盘,当完全写完时,校验和也会被写到页的尾部,如果完全同步成功,则页的首部和尾部的校验和应该是一致的。如果写了一半儿断电了,那么在File Header
中的校验和就代表着已经修改过的页,而在File Trailer
中的校验和代表着原先的页,二者不同则意味着同步中间出了错。 - 后4个字节代表页面被最后修改时对应的日志序列位置(LSN)
这个部分也是为了校验页的完整性的,只不过我们目前还没说LSN
是个什么意思,所以大家可以先不用管这个属性。