开发者社区> 问答> 正文

在 Spark Structured Streaming 中,水印是如何计算和使用的?

在 Spark Structured Streaming 中,水印是如何计算和使用的?

展开
收起
真的很搞笑 2024-06-17 20:20:13 9 0
1 条回答
写回答
取消 提交回答
  • 在 Spark Structured Streaming 中,水印是全局的,在每个批次计算触发结束后重新计算。新的水印是取触发器执行前看到的最大时间戳和触发器执行中数据中的最大时间戳之间的最大值,然后减去宽限时间。在存在多个输入源的场景中,Spark 会跟踪每个输入流的情况,单独计算出水印,然后选择最小值作为全局水印。基于这个全局水印,Spark 可以维护到达的数据状态,并通过与迟到数据聚合来更新它,小于水印的延迟数据将被聚合,超过水印的数据将被丢弃。

    2024-06-17 20:42:25
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载