流计算引擎数据问题之低水印(Low Watermark)方案工作如何解决

简介: 流计算引擎数据问题之低水印(Low Watermark)方案工作如何解决

问题一:顺序处理(IOP)流系统是如何实现完整性推理的?无序处理(OOP)流系统有哪些常见的完整性推理方案?


顺序处理(IOP)流系统是如何实现完整性推理的?无序处理(OOP)流系统有哪些常见的完整性推理方案?


参考回答:

顺序处理(IOP)流系统主要通过缓冲和重排序的方式来实现完整性推理。这种系统对流元素进行缓冲后重排序,从而提供可预测的完整性语义,其中每个事件的到来保证不会出现更早的事件。

无序处理(OOP)流系统使用标记(Punctuation)、低水印(Low Watermark)、宽限时间(Slack Time)、心跳检测(Heartbeat)等方案来实现完整性推理。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654051


问题二:什么是宽限时间(Slack Time)方案?


什么是宽限时间(Slack Time)方案?


参考回答:

宽限时间(Slack Time)是一种简单的完整性度量机制,一般用流元素的事件时间减去一个固定长度的时间(元素抵达算子时的最长滞后时间)来量化。这个固定的时间可以由用户基于实际的算子周期来配置。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654052


问题三:低水印(Low Watermark)方案是如何工作的?


低水印(Low Watermark)方案是如何工作的?


参考回答:

低水印(Low Watermark)是嵌入到数据流中的特殊消息,表示可能出现在流中的最小时间戳。当算子接收到水印时,意味着没有比水印时间更迟的数据抵达了,因此可以将窗口中的数据计算并输出到下游。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654053


问题四:心跳检测(Heartbeat)方案与低水印(Low Watermark)方案有什么区别?


心跳检测(Heartbeat)方案与低水印(Low Watermark)方案有什么区别?


参考回答:

心跳检测(Heartbeat)和低水印(Low Watermark)方案都携带了关于数据源的信息,但区别在于心跳检测仅将数据源的进度信息直接送至引擎入口,而低水印则将“完整性”信息从数据源传送至了整个拓扑的输出源。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654054


问题五:流处理中,为什么较低的处理延迟至关重要?实现强完整性的同时,为什么会带来延迟?


流处理中,为什么较低的处理延迟至关重要?实现强完整性的同时,为什么会带来延迟?


参考回答:

流处理的理念是在线处理数据,因此较低的处理延迟至关重要,以便实时响应数据流中的变化。

实现强完整性的同时,会带来延迟,因为需要等待所有相关数据到达或满足完整性条件。例如,在使用低水印方案的引擎中,窗口聚合的数据需要在低水印穿过水印边界时,才会将窗口的数据发送至下游。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/654055



目录
打赏
0
0
0
0
49
分享
相关文章
|
7月前
|
Flink SQL 在快手实践问题之设置 Window Offset 以调整窗口划分如何解决
Flink SQL 在快手实践问题之设置 Window Offset 以调整窗口划分如何解决
98 2
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
89 1
流计算引擎数据问题之传播模块工作如何解决
流计算引擎数据问题之传播模块工作如何解决
67 1
流计算引擎数据问题之Apache Kafka Streams 没有采用低水印方案如何解决
流计算引擎数据问题之Apache Kafka Streams 没有采用低水印方案如何解决
75 0
流计算引擎数据问题之完整性信号Signal计算如何解决
流计算引擎数据问题之完整性信号Signal计算如何解决
62 0
流计算引擎数据问题之保证流计算的正确性如何解决
流计算引擎数据问题之保证流计算的正确性如何解决
54 0
流计算引擎数据问题之MillWheel/Cloud DataFlow 实现完整性推理如何解决
流计算引擎数据问题之MillWheel/Cloud DataFlow 实现完整性推理如何解决
64 0
|
10月前
|
实时计算 Flink版产品使用合集之使用 left interval join 和 timestamp assigner 进行灰度切换,并发现在灰度完成后水印停滞不前如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
110 1
流计算引擎数据正确性的挑战
按:去年此时发表了一篇文章 《流计算引擎数据一致性的本质》,主要论述了流计算引擎中的数据一致性问题,事实上,该文章只能算作流计算数据一致性的上篇,如何通过流计算中得到真正准确、符合业务语义的数据,需要作进一步阐述。强迫症接受不了这种半拉子工程,所以今年还是陆陆续续把下篇(流计算引擎数据正确性的挑战) 撰写完成。上下两篇文章的主要论点,分别对应了流计算领域中的两大难题:端到端一致性和完整性推理。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等