摘要:长文揭秘YashanDB列式存储引擎技术实现

作者:谢锐 YashanDB存储引擎资深技术专家

概述

YashanDB列式存储引擎,又称为LSC(Large-scale Storage Columnar Table)。其通过自研的CBO优化器、向量化执行、原生列存格式等技术,达到业界领先的查询分析能力。

YashanDB LSC是专为海量数据的实时分析场景而设计,致力于实现简单操作、极速分析、实时导入、低成本四个目标。

//简单操作

YashanDB LSC基于YashanDB统一平台,在一定程度上降低用户的使用和维护难度;同时LSC具备完善的事务能力,支持MVCC、HA同步,支持同行表方式进行备份恢复等。

//极速分析

YashanDB LSC依次通过块级过滤、行级过滤减少数据量;然后针对不同数据量和查询需求,智能选择缓存策略、支持小切片合并以提升查询效率,或是灵活采用多种索引和排序技术来加速数据访问。

//实时导入

YashanDB LSC支持批量导入、流式导入以及全实时导入三种方式。最高可达到单DN 300MB/S的导入速度,且支持可变列存结构,实现毫秒级的数据导入。

//低成本

YashanDB LSC通过列存压缩编码,以及存算分离等技术实现海量数据的低成本分析

下面我们将深入探讨LSC技术实现原理,并围绕其四大目标以及未来的发展规划进行阐述。

融合架构

本章采用整体至局部的叙述方式详细介绍LSC结构,依次介绍LSC整体架构、LSC的表结构、LSC的切片文件格式。

统一存储架构

YashanDB存储引擎在接口、元数据管理、存储结构、空间管理等方面都是高度融合的。同时在存储引擎的基础组件上是高度统一的比如事务机制、备份恢复、HA等等。

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_元数据

存储引擎对外有统一的接口,如支持DDL的create/alter/drop等操作表结构的接口、DML等插入、修改、删除记录的接口。行表由于操作主要是单行的,所以接口传递的数据主要是Row结构;列表侧重批量处理,其传递的数据是列式的DataSet结构。但是不论行表还是列表,我们都提供了单条/批量查询的能力,这为行列混合处理奠定了基础。

在元数据管理上,列表使用了行表同样的系统表来表达,包括分区、索引等的表示都是高度统一的。同时YashanDB行表支持采用列式索引来加速,列表也可以使用Btree索引,列表的部分列还可以用Heap结构来存储。

在数据缓存上,LSC根据其数据特征扩展实现了变长块缓存。此外实现了本地磁盘缓存来加速存算分离下的数据访问。

在空间管理上,列表扩展了Tablespace能力,支持采用databucket来管理列表的空间,databucket是通过目录和文件来进行空间管理的。这与行表DataFile基于Segment/Page的管理有较大差异。

YashanDB LSC表支持完善的事务能力,保证事务ACID特性,支持MVCC,支持行表一样的方式来进行备份恢复,支持HA同步。

LSC表结构

LSC表通过分布/分区/切片(Slice)三层来组织其数据。首先通过分布将数据打散到不同的数据节点,分布实质上是一个一级分区;然后在数据节点内通过分区进一步划分数据,LSC表支持Range/List/Hash等分区方式;在分区内数据由切片组成,切片又可以分为可变切片,内存切片,以及稳态切片。

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_数据_02

可变切片:支持原地更新,小事务操作,主要针对实时导入等场景。

内存切片:主要用于快速导入,导入完成后生成稳态切片。

稳态切片:生成后不可修改,采用列式存储,且其数据经过排序,编码,压缩等处理,查询性能非常好,支持标记删除。

切片文件格式

那么切片的数据如何组织呢?这里我们重点介绍下稳态切片的存储格式。稳态切片从逻辑结构展开主要由SliceMeta、ColumnMeta、ColumnData、BlockData组成。

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_元数据_03

SliceMeta :其中包含切片的格式版本、元数据的CRC校验信息,以及每列Meta的位置信息。

ColumnMeta :其中包含切片/块粒度的MIN/MAX统计信息、Extent元数据(Block的集合)、Block元数据、布隆过滤器、字典元数据等。

ColumnData :其中包含某列的所有Block。

BlockData Block:数据由NotNull、Offset、Values三个向量组成。其中NotNull向量和Offset向量是可选的,NotNull向量用于表示列的空值信息,Offset向量用于记录变长数据的长度信息,以及完成某行数据的快速定位。

切片的物理结构有多种形式,可以根据需要将不同的逻辑部分组合存储。

方式1:Slice所有数据一起存储。

方式2:Slice的每列单独存储。

方式3:Slice的每列的元数据和数据独立存储。

YashanDB默认采用方式3,列的元数据和数据独立存储。一个Slice存储的例子如下图:

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_对象存储_04

业界已经有很多开源格式了,为什么YashanDB还要引入自己的文件格式呢?主要有以下两方面的原因:

一是YashanDB的数据格式是专门设计的,与开源格式存在差异,写入和查询时有额外转换的开销,没法做零拷贝等极致优化。

二是方便扩展新的类型和编码,尤其是在一些特定业务场景下,可以结合数据特征达到极致的编码效果。

极速分析

在本地三节点测试中,TPC-H 100G首次执行35秒,二次执行接近22秒,达到了业界领先的水平。接下来我们将展开介绍LSC如何实现快速的查询分析。

在列存的基础下,要实现快速的查询分析,首先需要尽可能的过滤数据,减少需要处理的数据量;其次在加载数据量确定的情况下,考虑如何以最快的速度把数据加载到内存向执行层返回;再次需要考虑在实际导入过程中如何快速的查询;最后还需要考虑分析中的点查场景。下面依次展开介绍具体如何实现。

块级过滤

查询语句的条件下推到存储层,存储可以通过如下方式完成Block粒度的过滤。

首先过滤列在 Slice粒度的MIN/MAX统计信息。如果不满足,则说明没有Block满足条件,可快速跳过该条件;其次过滤列在Block粒度的MIN/MAX统计信息,将条件与MIN/MAX向量做比较,得到满足条件的Block位图;最后过滤列上的布隆过滤器,用于等值条件快速过滤。

MIN/MAX统计信息也叫Zonemap,其和布隆过滤器都属于稀疏索引。稀疏索引作为元数据存储在ColumnMeta中。

下图展示了一条语句块级过滤过程:

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_对象存储_05

语句“SELECT C1,C3 FROM TABLE WHERE (C1 < 30 OR C1 > 100) AND (C2 = 2 OR C2 = 3)” ,其中C1上的条件可以通过Slice/Block粒度的MIN/MAX统计信息来过滤。C2列除了用MIN/MAX过滤外,还可以使用布隆过滤器来过滤。

另外C2列并未出现在最终结果中,所以实际不必向执行层返回其数据。基于稀疏索引的块级过滤,提前将不满足条件的Block过滤掉,降低了IO/解压/解码/行级过滤/结果集生成等步骤的开销,极大的提升了查询性能。

行级过滤

在完成块级过滤后,就可以按照过滤结果将块加载到内存。这时的数据是尚未解码的,在这里可以做不解码数据的行级过滤。对比执行层的过滤,其好处非常明显,一方面降低了解码开销,另外还减少了数据拷贝。

这里以字典编码为例,来说明实现不解码过滤。

字典编码后列数据被转换为字典元数据和编码数据,其中字典元数据包含字典值、字典号、排序号。编码数据中存储的是字典号。

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_数据_06

等值条件过滤

等值条件过滤可以基于字典号比较完成。通过字典元数据将条件转为字典号,然后与编码数据的字典号比较,就可以得到满足条件的行位图。

范围条件过滤

由于字典号之间并无大小关系,因而范围条件无法通过字典号比较完成,需要将范围条件通过字典元数据转为排序号,将编码数据也转换为排序号,通过排序号之间的比较就能完成范围条件的比较。

缓存与IO

那过滤之后,如何将数据快速载入缓存?

在块级过滤时,就需要加载ColumnMeta,块级过滤完成后加载ColumnData。最快的加载方式就是数据本身在我们的应用缓存中。

YashanDB LSC表可根据查询计划自动选择缓存策略,也支持多层次的缓存,如下图: 

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_数据_07

其中操作系统的PageCache可对本地文件系统的数据加速,DiskCache可针对对象存储等远端数据进行加速,SColDataBuffer可根据业务场景来缓存数据。

如果数据不在缓存中,那么就需要实际发起IO了。这里我们支持根据块过滤的结果,一次性将连续的Block读取。尤其在对象存储场景下,可极大提升读取速度。

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_元数据_08

删除合并

上面都是正常场景下的查询加速手段,那么在导入期间,在有删除的情况下,如何保证快速的分析呢? 这里首先就涉及到如何表示删除的问题了。

我们知道行表是每行都有删除事务信息的,其读取时每行都需要做可见性判断。 这对于列表是不可接受的,一方面分析场景下删除比较少,通常不需要处理行可见性;另外列表通常批量读取,每列进行事务判断会带来离散IO,效率非常低下。

YashanDB LSC表的稳态切片将多个Block的删除信息使用一个位图来存储,并且通过roaring bitmap来存储,这样读取时只需要一次IO就能完成多个Block的删除位图读取。如下图:

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_数据_09

随着导入的进行,删除的增多,LSC表会产生一些保护删除空洞的切片,以及一些小切片。这些小切片编码压缩效果差,无法快速批量过滤,且产生很多小IO。YashanDB支持小切片合并来提升查询性能,合并是在后台进行的,并且支持资源管控来降低对业务的影响。

点查优化

在实际业务场景中,除了分析常见的批量查询外,还有一些少量数据查询的场景。比如查询明细数据,以及导入或业务执行的DML操作。YashanDB支持多种方式来加速点查:

方式1:基于Btree的主键和索引。

方式2:用排序键。切片数据按照排序键组织,可以在块和行级别进行快速的二分查找。

方式3:用稀疏索引。若查找条件不在主键、索引和排序键中,可以采用该方式。

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_数据_10

实时导入

实时分析对导入的基本诉求是快和实时,下面看看我们如何实现这两个目标。

批量导入

YashanDB LSC表支持两种批量导入方式:

方式1:Yasldr工具导入。用于离线导入场景,通过客户端分批,直连DN(数据节点)等技术,可达到单DN 300MB/S的导入速度。

方式2:DataX等工具导入 。用于在线批量导入场景,通过连接CN(协调节点)来导入,支持完善的事务能力。单DN可达到50MB/S的导入速度。

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_元数据_11

在导入时,我们先将数据写入到内存切片进行攒批,然后按批生产稳态切片格式,同时将数据发送给备机,实现了全流程的批量化,并行化处理。

流式导入

YashanDB LSC表支持通过Flink等导数工具来进行流式导入,流式导入关键点是如何高效删除和去重。LSC表通过Upsert索引去重技术和延迟合并删除,可以实现非常高效的删除去重。如下图:

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_对象存储_12

通过UPSERT索引来判断重复性,这样一次性完成了索引写入和判重逻辑,接下来只要将老记录删除即可。可以用YashanDB Btree专门的Upsert接口来支持该操作,Upsert语义下的导入性能比Insert on duplicate update或Merge Into等实现更加高效。

YashanDB LSC表稳态Slice的删除信息是合并存储的,因而我们在内存中先对删除信息进行分组合并,然后批量进行删除。这样既避免了删除信息的写放大,也避免删除信息合并存储可能引起的死锁问题。

全实时导入

批量导入和流式导入虽然都实现了在线导入,但是为了避免生成很多小切片文件,影响查询性,对时效性有一定的约束。YashanDB LSC表支持可变列存结构实现毫秒级的数据导入。

可变列存是一种可以原地更新的列存结构,支持行级事务,因而可以实现无限制的实时导入。并且支持All in mem的表空间来加速可变列存的导入和查询。

低成本

分析场景下数据量通常都很大,且分析业务的执行通常不是持续稳定的。在这种场景下可以通过一些技术来降低业务的成本,提高资源的有效利用率。

编码压缩

编码压缩不仅可以帮助提升查询性能,还可以大幅降低成本。

YashanDB LSC表支持如下编码方式:

l 数值/时间类型,支持Rle/Delta编码

l Decimal类型,支持Decimal32/Decimal64/Decimal128/Byte-Packed编码

l 字符串类型,支持字典/前缀编码

在切片生成时会自动根据数据特征选择编码类型,无需用户指定。

YashanDB LSC支持ZSTD/LZ4压缩算法,针对每个压缩算法可以配置高/中/低三种压缩等级;支持在数据库、表、列等粒度指定压缩算法;默认采用LZ4(low)压缩方法。

在TPCH场景下测试,ZSTD最大压缩比约为5:1, LZ4也能达到3:1。大幅降低了数据的存储和访问成本。

对象存储

另一个能大幅降低成本的技术是对象存储的使用。

YashanDB LSC表的稳态列存在写入后是不会修改的,非常适合使用对象存储。另外结合数据访问策略,可以将部分热点数据放在本地,非热点数据存入对象存储。对象存储的数据还可以通过本地磁盘缓存来进行加速。

这样从整体上达到性能不下降,存储成本大幅下降的好处。同时还实现了数据的集中管理。

实时分析都靠它→揭秘YashanDB列式存储引擎的技术实现_数据_13

此外通过对象存储分离存储,可实现计算节点的无状态化。如上图中的PN节点,其本身不持久化任何数据,元数据通过DN获取,数据从对象存储获取,因而可以根据业务需要快速的扩缩。从而大幅降低业务成本。

展望

YashanDB列式存储引擎未来也将持续提升核心竞争力和产品成熟度,在高并发、低延时、检索等能力上继续完善。其架构会沿着存算分离,湖仓方向持续演进。