开发者社区> 问答> 正文

在 Spark Structured 中,为什么全局水印的设计可能会导致不正确的聚合结果?

在 Spark Structured Streaming 中,为什么全局水印的设计可能会导致不正确的聚合结果?

展开
收起
真的很搞笑 2024-06-17 20:20:10 13 0
1 条回答
写回答
取消 提交回答
  • 在 Spark Structured Streaming 中,全局水印的设计初衷是用于计算中的状态管理,而不是为了支持复杂的完整性推理。因此,当在数据流拓扑中进行链式聚合时(即下游聚合算子的输入是上游聚合算子的输出),使用全局水印可能会导致不正确的聚合结果,因为全局水印无法准确反映每个聚合阶段的进度。

    2024-06-17 20:42:24
    赞同 5 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载