自Spark 2.3开始,Spark Structured Streaming开始支持Stream-stream Joins。两个流之间的join与静态的数据集之间的join有一个很大的不同,那就是,对于流来说,在任意时刻,在join的两边(也就是两个流上),数据都是“不完全”的,当前流上的任何一行数据都可能会和被join的流上的未来某行数据匹配到,为此,Spark必须要缓存流上过去所有的输入,以Stream State信息的形式来维护。当然,和流上的聚合运算一样,我们也可以通过wartermark来处理data late问题。在这篇文章中,我们将探讨如何使用流 - 流连接,我们解决了哪些挑战以及它们启用了哪种类型的工作负载的规范案例。让我们从流 - 流连接的规范用例开始 - 广告货币化。
流 - 流连接的案例:广告货币化
想象一下,您有两个流 - 一个广告展示流(即,向用户显示广告时)和另一个广告点击流(即,当用户点击显示的广告时)。要通过广告获利,您必须匹配导致点击的广告展示。换句话说,您需要根据公共密钥加入这些流,公共密钥是两个流的事件中存在的每个广告的唯一标识符。在高级别,问题如下所示。
虽然这在概念上是一个简单的想法,但仍有一些核心技术挑战需要克服。
-
使用缓冲处理延迟/延迟数据:展示事件及其相应的点击事件可能无序到达,并且它们之间存在任意延迟。因此,流处理引擎必须通过适当地缓冲它们直到它们匹配来解决这种延迟。尽管所有连接(静态或流式传输)都可以使用缓冲区,但真正的挑战是避免缓冲区无限制地增长。
-
限制缓冲区大小:限制流连接缓冲区大小的唯一方法是将延迟数据丢弃超过某个阈值。用户可以配置此最大延迟阈值,具体取决于业务要求与系统资源限制之间的平衡。
-
定义良好的语义:在静态连接和流连接之间保持一致的SQL连接语义,有或没有上述阈值。
我们已经在流 - 流连接中解决了所有这些挑战。因此,您可以使用SQL连接的明确语义来表达计算,并控制相关事件之间的延迟。我们来看看如何。
首先让我们假设这些流是两个不同的Kafka主题。您可以按如下方式定义流式DataFrame:
impressions = ( # schema - adId: String, impressionTime:
Timestamp, ...
spark
.readStream
.format("kafka")
.option("subscribe", "impressions")
…
.load() )
clicks = ( # schema - adId: String, clickTime:
Timestamp, ...
spark
.readStream
.format("kafka")
.option("subscribe", "clicks")
…
.load())
然后你需要做的内部equi-join他们如下。
impressions.join(clicks, "adId")# adId is common in both DataFrames
如同所有的结构化数据流的查询,该代码是完全一样的,如果DataFrames impressions和clicks静态数据进行定义。执行此查询时,结构化流媒体引擎将根据需要将点击次数和展示次数缓冲为流式传输状态。对于特定广告,一旦接收到两个相关事件(即,一旦接收到第二事件),就将生成加入的输出。当数据到达时,将以递增方式生成连接的输出并将其写入查询接收器(例如,另一个Kafka主题)。
最后,如果连接查询已应用于两个静态数据集(即,与SQL连接相同的语义),则连接的累积结果将没有区别。事实上,即使一个被呈现为流而另一个被呈现为静态数据集,它也将是相同的。但是,在此查询中,我们没有给出任何关于引擎应该缓冲事件以找到匹配的时间的指示。因此,引擎可以永久地缓冲事件并累积无限量的流状态。让我们看看我们如何在查询中提供额外的信息以限制状态。
管理流 - 流连接的流状态
要限制流 - 流连接维护的流状态,您需要知道有关您的用例的以下信息:
-
在各自来源生成两个事件之间的时间范围是多少?在我们的用例的上下文中,我们假设在相应的展示后0秒到1小时内可能发生点击。
-
在源和处理引擎之间传输事件的最长持续时间是多少?例如,来自浏览器的广告点击可能会因间歇性连接而延迟,并且比预期更晚到达且无序。我们可以说,展示次数和点击次数最多可分别延迟2小时和3小时。
利用每个事件的这些时间约束,处理引擎可以自动计算需要缓冲的事件多长时间以生成正确的结果。例如,它将评估以下内容。
-
展示需要最多4小时(在活动时间内)进行缓冲,因为3小时后点击可能与4小时前的展示相匹配(即3小时 - 晚到+最多1小时延迟展示和点击)。
-
相反,点击需要缓冲最多2小时(在事件时间内),因为2小时后的展示可能与2小时前收到的点击相匹配。
因此,当引擎确定任何缓冲事件未来预期不会获得任何匹配时,引擎可以从流中丢弃旧的印象和点击。
这些时间约束可以在查询中编码为水印和时间范围连接条件。
-
水印:结构化流中的水印是一种通过指定要考虑的后期数据来限制所有有状态流操作中的状态的方法。具体地,水印是事件时间中的移动阈值,其落后于查询在处理数据中看到的最大事件时间。尾随间隙(也称为水印延迟)定义引擎等待迟到数据到达的时间,并在查询中使用指定withWatermark。在我们之前关于流聚合的博客文章中更详细地阅读它。对于我们的流内部连接,您可以选择指定水印延迟,但必须指定限制两个流上的所有状态。
-
时间范围条件:这是一个连接条件,它限制每个事件可以连接的其他事件的时间范围。这可以指定以下两种方式之一:
-
时间范围连接条件(例如...... JOE ON leftTime BETWEEN rightTime AND rightTime + INTERVAL 1 HOUR),
-
加入事件时间窗口(例如...... JOIN ON leftTimeWindow = rightTimeWindow)。
-
总之,我们对广告货币化的内在联系将如下所示。
from pyspark.sql.functions import expr# Define watermarks
impressionsWithWatermark = impressions \
.selectExpr("adId AS impressionAdId", "impressionTime") \
.withWatermark("impressionTime", "10 seconds ")
# max 10 seconds late
clicksWithWatermark = clicks \
.selectExpr("adId AS clickAdId", "clickTime") \
.withWatermark("clickTime", "20 seconds")
# max 20 seconds late# Inner join with time range conditions
impressionsWithWatermark.join(
clicksWithWatermark,
expr("""
clickAdId = impressionAdId AND
clickTime >= impressionTime AND
clickTime <= impressionTime + interval 1 minutes
"""
))
有了这个,引擎将自动计算前面提到的状态限制并相应地删除旧事件。与结构化流中的所有状态一样,检查点确保您获得完全一次的容错保证。
需要重点解释的是:两个流都通过withWatermark对数据延迟进行了限定,之后在join操作中通过
clickTime >= impressionTime AND clickTime <= impressionTime + interval 1 hour来限定时间尺度上的界限条件,这样达到的效果就是:允许并只允许以当前时间为基准向前推2小时内的触达数据和3小时内的点击数据进行join,超出这个时间界限的数据不会被Stream State维护,避免无止尽的State。
外关联(Outer Joins)
watermark + event-time对于内关联是非必须的,可选的(虽然大数情况下都应该制定),但是对外关联就是强制的了,因为在外关联中,如果关联的任何一方没有匹配的数据,都需要补齐空值,如果不对关联数据的范围进行限定,外关联的结果集会膨胀地非常厉害,也就是每一条没有匹配到的输入数据都要依据另一个流上的全体数据的总行数使用空值补齐。
前面内关联的例子使用外关联实现的代码如下:
from pyspark.sql.functions import expr
# Left outer join with time range conditions
impressionsWithWatermark.join(
clicksWithWatermark,
expr("""
clickAdId = impressionAdId AND
clickTime >= impressionTime AND
clickTime <= impressionTime + interval 1 hour
"""),
"leftOuter" // only change: set the outer join type)
区另仅在于追加了一个参数来指定关联类型是leftOuter join.
此外,外关联结果集的生成也有这样一些重要的特点:
-
外关联的空的结果集必须要等到时间走过了指定的watermark和time range条件之后才会生成,原因和前面解释outer join必须依赖watermark + event-time的原因是一样的,就是外关联下空值必须要补齐到另一方的所有行上,因此引擎必须要等待另一方全部的数据(就是watermark和time range条件限定范围内的数据)就位之后才能进行补齐操作。
-
与维护任意状态流时没有一个确定的timeout触发时间类似(参考:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.streaming.GroupState 中关于“there is a no strict upper bound on when the timeout would occur”的解释),在没有数据输入的情况下,外关联结果集的输出也会延迟,而且可能会延迟非常长的时间。引起这些情况的原因都与watermark机制有关,因为watermark更新是依赖每一个新进的mirco-batch上的数据的event-time, 如果迟迟没有新的数据输入,就不会驱动watermark的更新,进行所有依赖watermark进行时间范围判定的动作也不会被触发,或者触发也不会有所变化,因为watermark没有更新,因此对产生各种延迟。