怎样缓存时序数据更合理? 解密DBMind在时序数据缓存上的代码实践 openGauss
业务背景
DBMind是openGauss开源的数据库自治运维底座,在设计和实现上,融合了大量的工程技巧和优化。其中,DBMind的一个功能需求是“通过从时序数据库中获取监控数据,然后基于该监控数据进行分析”,上述提到的时序数据,可以用于异常检测、时序预测以及多指标关联分析等。同时,上述DBMind功能总体上可以认为是一个近似使用滑动窗口进行离线分析的功能。
注
时序数据至少由两部分组成,即时间标志(可以是时间戳)和该时间标志上的值。为了方便表示,下文中所有时序数据均只表示其时间戳,省略具体值。表示形式可以是 (T1, T2, T3, T4),也可以缩略为 (1, 2, 3, 4) 二者是等价的。用于表示时间标志为1、2、3、4以及其对应值组成的时间序列。
提出问题
问题1:重复区间数据的缓存
例如,某时刻我们需要使用时间序列 (T0, T1, T2, ..., T99) 这100个样本点组成的数据进行分析;一段时间后,我们可能需要使用的时间序列为 (T50, T51, T52, ..., T149). 这个时间序列的长度仍然是100, 但是,这两段时间序列之间明显是有重叠数据的。那么,我们不禁可以思考,如何实现一个缓存结构缓存从 (T50, T51, ..., T99) 这一段数据呢?
问题2:区间合并与组织
思考这样一个问题,DBMind内部的某个功能需要检索时间序列取值从0到49的数据,即(T0, T1, T2, ..., T49). 另一个功能检索了数据段从 40 到100,那么,这两个时间段如果缓存到Buffer中,是可以进行区间合并的,也就是合并为 (T0, T1, T2, ..., T99, T100). 下次,某个功能如果检索的时间区间落在 (0, 100) 区间,则可以直接返回数据,避免从TSDB(时序数据库)中获取数据的网络IO.
问题3:时序数据的下采样与上采样
面前两个问题,只引出了时序数据的起始和终止位置两个要素,起始时序数据还有间隔这个要素。例如,某时间序列 A = (T0, T1, T2, ..., T49) 可以作为时间序列 B = (T0, T2, T4, ..., T48) 的父序列,即可以从时间序列 A 上抽取出时间序列 B,这个过程称之为下采样(或降采样)。反之,如果从间隔更稀疏的数据则不可以恢复间隔更稠密的时序数据,否则可能会失真。根据上述描述,当我们已经缓存了时序数据 A,则可以从该时序数据中直接提取出时序序列 B,从而避免从TSDB(时序数据库)中获取数据的网络IO.
问题4:缓存数据的淘汰机制如何设计?
我们前面只提到了可以将时序数据缓存到内存中,从而避免从TSDB(时序数据库)中获取数据的网络IO,那么,如果只是存储在内存中,不进行淘汰,数据迟早会导致系统OOM. 如何组织数据的淘汰机制?
问题5:如何进行数据对齐?
来自TSDB(时序数据库)中的时序数据,可能不是干净的,也就是可能存在间隔不一致,起止时间不一致的情况,这样的话,不能直接把数据进行合并。例如时序数据 (100, 200, 300, ..., 1000) 和 (101, 201, 301, ..., 1001) 就没有对齐,这两个数据涉及到合并的话,还需要有一个 shift 的过程
解决问题
解决问题1:构建一个树形结构
我们抛出了上面的问题2,可以帮助我们分析我们可以使用的数据结构。例如某个时间序列 (1,2,3,4,5) 可以是 (1,2) 以及 (4,5) 的父序列。那么,我们可以构造某个树结构,来表示这层关系,例如:
(1,2,3,4,5)
(1,2) (3,4,5)
(4,5)
当然,也可以是其他的形式,例如:
(1,2,3,4,5)
(1,2,3) (4,5)
如果是多叉树的话,则可以表示的形式就更多了。通过分析上述数据结构,我们发现,父节点其实只需要存储一个序列的起始值就可以了,具体的数据值由叶子节点来存储,父节点只需要存储指向叶子节点的引用即可,这样可以避免数据冗余。那么,这颗树就可以是:
(1, 5)
(1, 2) (3, 5)
(3, 3) (4, 5) <--- 叶子节点,存具体序列值
或者是:
(1, 5)
(1, 4) (5, 5) <--- 父节点,只存区间
(1, 3) (4, 4)
(1,2,3) <--- 叶子节点,存具体序列值
这样设计的一个好处是,可以容忍缺失值,当下次需要取出完整时序序列区间的时候,只需要从TSDB(时序数据库)中获取缺失的数据即可,例如:
(1, 5)
(1, 4) (5, 5)
(1, 2) (4, 4) <--- 缺少序号为3的值
上面的例子,如果caller需要获取 (1, 5) 间隔为 1的数据,则只需要从TSDB(时序数据库)中获取序号为3的值,然后放到树种进行合并(merge),即可生成指定序列。这样,就减少了网络IO.
通过上面的例子,我们可以看到,这个数的设计上,有点类似于区间树(segment tree)
细心的读者可能会发现,这里面我们只是使用了二叉树,那么为什么用二叉树,不用多叉树呢?因为,我们可以把父节点的左子树设置为值更小的序列范围,右子树设置为值更大的序列范围,这样的话,我们就可以通过二分搜索,快速地检索到我们需要定位的叶子节点了。同时,这个Buffer是存储在内存中的,如果树的高度比较高的话,开销也可控。因此,也不必像B-tree那样,做成一个多叉树。
但是,还有一个问题,我们前面提到的,如果一个树很高的话,我们实现的优化机制二分搜索的复杂度 O(logN) 就会退化为 O(N), 没有办法来优化数据了。例如:
(1, 5)
(1, 4) (5, 5)
(1, 3) (4, 4)
(1, 2) (3, 3)
(1, 1) (2, 2)
例如检索时间编号为1的值,就会遍历5次,即O(N)的复杂度。所以,老手艺就得用上了,也就是这个树的旋转和合并。这块太过于复杂,但总体思路与B-tree, 红黑树的策略类似。只不过,这块我们用不到实现这么复杂,我们说过,叶子节点存储具体的值,那么我们就可以将叶节点向父节点进行合并,从而减小树高,提高算法效率。
解决问题2:上、下采样问题
有了上面的数据结构,下采样就很简单了,我们只需要首先判断时序序列的时间间隔是不是更大,如果比现有树形结构的间隔更大,那么直接定位到指定区间,然后使用下采样算法进行数据点的抽取即可。下采样的方法可以取模,也可以使用滑动窗口(计算平均值、中位数或分位数)。如果是上采样,那么就麻烦了,例如当前缓存的树结构是的时间序列间隔是10,某个caller调用时,希望使用的时间序列间隔是1, 那显然不能满足caller的需求。需要从TSDB(时序数据库)中获取数据,这样,从TSDB(时序数据库)中获取到的数据,比当前缓存的Tree结构其实更好,这里面会涉及到一个权衡,即是不是可以把当前已经缓存的这个Tree结构淘汰,换用更密集的序列呢?这块实现也很复杂,此处不赘述。
淘汰机制
我们前面从背景上提到过,DBMind的根本业务相当于一个滑动窗口,这样的话,滑动窗口的长度其实是固定的,我们就可以在内存中划定一个序列的缓存长度,超过这个长度直接淘汰掉就行了。只不过,该如何淘汰呢?应该由谁来驱动呢? DBMind里面的实现机制是,通过实现一个 EvictThread 来完成的,只不过,线程在数据淘汰时候,需要加锁,否则容易会出现数据不一致的情况。而且,锁的粒度,最好也可以优化一下。即某个区间上的共享锁。不过,这个机制虽然更好,但是更复杂,实际实现上,只需要控制EvictThread的淘汰触发事件即可。
结语
即便是一个看似很简单的功能,如果想把它实现得比较优雅,那么需要考虑的方面也是足以让这个问题变得很复杂。对代码实现逻辑的复杂性、多角度思考,是代码实现过程中一个非常重要且有乐趣的一环,也是体现某款软件的软件工程能力好坏的重要因素。DBMind是立足于openGauss自治数据库能力的载体,力争将软件工程能力做得更好,以便用户获得更优的软件体验。