分流
所谓“分流”,就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于DataStream,得到完全平等的多个子 DataStream,一般来说,我们会定义一些筛选条件,将符合条件的数据拣选出来放到对应的流里。
1、基于filter()方法进行筛选
这种实现非常简单,但代码显得有些冗余——我们的处理逻辑对拆分出的三条流其实是一样的,却重复写了三次。而且这段代码背后的含义,是将原始数据流 stream 复制三份,然后对每一份分别做筛选;这明显是不够高效的。
2、基于侧输出流输出
这里我们定义了两个侧输出流,分别拣选 Mary 的浏览事件和 Bob 的浏览事件;由于类型已经确定,我们可以只保留(用户 id, url, 时间戳)这样一个三元组。而剩余的事件则直接输出到主流,类型依然保留 Event,就相当于之前的 elseStream。这样的实现方式显然更简洁,也更加灵活。
合流
联合(Union)
最简单的合流操作,就是直接将多条流合在一起,叫作流的“联合”(union),联合操作要求必须流中的数据类型必须相同,合并之后的新流会包括所有流中的元素,数据类型不变。这种合流方式非常简单粗暴,就像公路上多个车道汇在一起一样。
注意:对于合流之后的水位线,也是要以最小的那个为准,这样才可以保证所有流都不会再传来之前的数据
连接(Connect)
连接得到的并不是 DataStream,而是一个“连接流”(ConnectedStreams)。连接流可以看成是两条流形式上的“统一”,被放在了一个同一个流中;事实上内部仍保持各自的数据形式不变,彼此之间是相互独立的。要想得到新的 DataStream,还需要进一步定义一个“同处理”(co-process)转换操作,用来说明对于不同来源、不同类型的数据,怎样分别进行处理转换、得到统一的输出类型。所以整体上来,两条流的连接就像是“一国两制”,两条流可以保持各自的数据类型、处理方式也可以不同,不过最终还是会统一到同一个 DataStream 中。
注意:ConnectedStreams 也可以直接调用.keyBy()进行按键分区的操作,得到的还是一个 ConnectedStreams,可用理解为一个join的操作。
CoProcessFunction()方法
对于连接流 ConnectedStreams 的处理操作,需要分别定义对两条流的处理转换,因此接口中就会有两个相同的方法需要实现,用数字“1”“2”区分,在两条流中的数据到来时分别调用。我们把这种接口叫作“协同处理函数”(co-process function)。与 CoMapFunction 类似,如果是调用.flatMap()就需要传入一个 CoFlatMapFunction,需要实现 flatMap1()、flatMap2()两个方法;而调用.process()时,传入的则是一个 CoProcessFunction。
广播连接流(BroadcastConnectedStream)
关于两条流的连接,还有一种比较特殊的用法:DataStream 调用.connect()方法时,传入的参数也可以不是一个 DataStream,而是一个“广播流”(BroadcastStream),这时合并两条流得到的就变成了一个“广播连接流”(BroadcastConnectedStream),要用普通数据流connect广播流。
基于时间的合流——双流联结(Join)
Window Join
1、Tumbling Window Join
缺点:可能存在数据丢失的问题
2、Sliding Window Join
缺点:可能存在数据重复的问题
3、Session Window Join
缺点:如果数据一直传入,session不断开,导致长时间的没输出,失去了实时的功能。
Interval Join
右流相对左流偏移的时间区间进行关联,即:
right.timestamp ∈ [left.timestamp + lowerBound; left.timestamp + upperBound]
注意:
- 目前 interval join 只支持 Event time,所以要在流中定义事件事件。
- 以上几种join方式都是inner join
窗口同组联结(Window CoGroup)
除窗口联结和间隔联结之外,Flink 还提供了一个“窗口同组联结”(window coGroup)操
作。它的用法跟 window join 非常类似,也是将两条流合并之后开窗处理匹配的元素,调用时
只需要将.join()换为.coGroup()就可以。
与 window join 的区别在于,调用.apply()方法定义具体操作时,传入的是一个CoGroupFunction。这也是一个函数类接口,源码中定义如下:
可以理解为传入为俩个自定义的收集器,输出为一个自定义的收集器。
connect操作join操作的区别
onnect操作比join操作更通用。Connect确保两个流( key控的或未锁定的)在同一个位置(在coxxx函数中的同一个并行实例)相遇。
一个流可以是操纵应用于另一个流的行为的控制流。例如,您可以输入新的机器学习模型或其他业务规则。或者,可以使用 key控并在同一位置汇合的两个流的属性进行 join。Flink提供了一些预定义的 join运算符。