问题一:如果下游不能接受中间结果,而引擎接收到完整性信号并输出后仍有迟到的数据,该如何处理?
如果下游不能接受中间结果,而引擎接收到完整性信号并输出后仍有迟到的数据,该如何处理?
参考回答:
一般的处理策略有丢弃、重复计算或旁路处理。重复计算可以实现更好的正确性,但需要长时间保留状态,从处理延迟和存储成本考虑,只能实现有限程度的“延迟宽限”。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654056
问题二:MillWheel 和 Cloud DataFlow 之间的关系是什么?
MillWheel 和 Cloud DataFlow 之间的关系是什么?
参考回答:
MillWheel 是 Google Cloud DataFlow 底层的流计算引擎(现在谷歌内部逐渐在被 Windmill 取代),它解决了数据一致性和完整性推理的难题,可以实现健壮的流式数据处理。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654057
问题三:Cloud DataFlow 的主要贡献是什么?
Cloud DataFlow 的主要贡献是什么?
参考回答:
Cloud DataFlow 的主要贡献是为批处理和流数据处理提供了统一的模型,这使得在云平台上可以更方便地进行数据处理,不论是有界的批处理数据还是无界的流数据。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654058
问题四:MillWheel/Cloud DataFlow 如何实现完整性推理?
MillWheel/Cloud DataFlow 如何实现完整性推理?
参考回答:
MillWheel/Cloud DataFlow 采用了低水印的核心思想,实现了支持事件时间处理语义的完整性推理。在每个算子的物理节点上,它们会追踪节点上的数据处理进度,并定期将进度信息发送到全局水印聚合系统。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654059
问题五:在 MillWheel/Cloud DataFlow 中,低水印是如何生成和传播的?
在 MillWheel/Cloud DataFlow 中,低水印是如何生成和传播的?
参考回答:
在 MillWheel/Cloud DataFlow 中,低水印是由全局水印聚合系统根据各个算子节点上报的处理进度计算得出的最小值。这个低水印信息随后会被发送给对应的算子物理节点,节点会将其与自身的处理进度进行比较,取两者中的最小值作为当前节点的水印。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654060