1、Watermark的介绍
首先我们应该了解一个概念,就是Watermark是用来测量时间的进度的一种方法。 因为我们在使用EventTime时间来进行计算的时候,由于EventTime是真实世界的时间,那么百分之100可能会发生乱序数据,那么何为乱序数据呢,也就是说,我1分钟前产生的数据现在才进入到我的系统中进行处理,这里就是延迟数据,那么乱序就是在正常的时间数据流中夹杂着一些非顺序的一些数据,例如某台机器的网络抖动,或者网卡和系统的延迟导致了这台机器上报的数据延迟上传,那么flink在处理的时候,这个时候可能收到了现在的数据也可能收到了10秒或者更长的数据,这个就是乱序数据。那么watermark就是用来测量乱序数据的进度,也就是说watermark用来触发计算,或者触发一些操作。Watermark是一种特殊的数据!
2、Watermark的运行原理
2.1 核心原理
我们首先要有一个场景来进行讲解这个事情,那么我们就看看我们的场景:
我们有一个5s的窗口,并且我们可以容忍的延迟时间为2s。那么也就是在7s的时候会触发计算,我们往下看就明白为什么会7s触发计算,或者永不触发。
单task,单分区的时候。其中的33 是数据, 2 是他携带的时间戳在右侧有一个5秒的窗口
那么我们的watermark的计算公式就是 watermark = time - latertime 。那么这个时候我们可以得到这个watermark是0,那么他属于0-5s的窗口,那么我们就放到窗口里面去。
这个时候又来了一条数据,就会变成下面这样对吧,为什么会变成两个窗口呢,因为99这条数据并不属于0-5秒这个窗口里面,因为flink窗口的大小是包左不包右的,那么这个时候我们大家应该也明白了,数据都是放在那里的,数据放在哪个桶或者说窗口是根据eventtime来决定的。
这个时候来了一条乱序数据,那么我们的watermark怎么更新呢?
我们可以看到我花的图 其中,23数据携带的时间戳是3,watermark也是3,那么这个时候明显违背了我们的
公式计算规则啊,其实不是的,watermark更新是有条件的,那就是watermark 不能倒着走啊,因为他是负责测量数据的进度的。
所以他的watermark 并不会按照公式计算,而是采用的上一个watermark。
那么我们多插几条数据看看。
那么这个时候我们并没有触发我们的窗口计算,那么窗口计算什么时候触发呢,当watermark大于等于窗口触发时间。
也就是大于等于5的时候触发计算。
那么我们讲到这里,应该大部分人都能够了解到了watermark的运行机制,以及窗口什么时候计算。
那么我们接下来就来考虑一下我们的多并行度下,我们的watermark如何传递?
2.2 Watermark的传递机制
我们应该知道 在一个 task中有很多的subtask,那么这些subtask都有自己的watermark,这个时候就会涉及到 watermark的传递,因为下游也是依赖这些watermark的。那就让我们看看watermark的传递机制吧。
我们可以看到Watermark在顺序的向下游流动,左侧的向右箭头,就是这个意思。那么我们这个时候发现有一个Partition WM 这个其实就是各个分区的 SubTask的Watermark,我这个时候发现,每个subtask的watermark都是不一样的,并且task会存储这些watermark,记录下来各个分区的watermark,并且把最小的watermark广播出去,因为当前还没有记录的是2、4、3、6,其中2是最小的。
这个时候当传递过来的watermark4 更新了,那么这个时候我们就将最小的3传递出去
当7这个watermark传递过来的时候,我们就会发现,传递过去的依然是最小的3。
那么这个时候我想大家对watermark应该是比较了解了。
3、watermark怎么用
1、常见用法
WatermarkStrategy
.<Tuple2<Long, String>>forBoundedOutOfOrderness(Duration.ofSeconds(20))
.withTimestampAssigner((event, timestamp) ->timestamp);
2、WatermarkGenerator
/**
* {@code WatermarkGenerator} 可以基于事件或者周期性的生成 watermark。
*
* <p><b>注意:</b> WatermarkGenerator 将以前互相独立的 {@code AssignerWithPunctuatedWatermarks}
* 和 {@code AssignerWithPeriodicWatermarks} 一同包含了进来。
*/
@Public
public interface WatermarkGenerator<T> {
/**
* 每来一条事件数据调用一次,可以检查或者记录事件的时间戳,或者也可以基于事件数据本身去生成 watermark。
*/
void onEvent(T event, long eventTimestamp, WatermarkOutput output);
/**
* 周期性的调用,也许会生成新的 watermark,也许不会。
*
* <p>调用此方法生成 watermark 的间隔时间由 {@link ExecutionConfig#getAutoWatermarkInterval()} 决定。
*/
void onPeriodicEmit(WatermarkOutput output);
}
3、watermark 分区数据倾斜解决方案
在数据源直接使用时如果因为数据源中的某一个分区/分片在一段时间内未发送事件数据,则意味着watermarkStrategy也不会获得任何数据去生成watermark,在这种情况下可以通过设置有一个空闲时间,当超过这个时间则将这个分片或分区标记为空闲状态。
WatermarkStrategy
.<Tuple2<Long, String>>forBoundedOutOfOrderness(Duration.ofSeconds(20))
.withIdleness(Duration.ofMinutes(1));//当时间超过1分钟则设置为空闲状态