flink怎么判断全量已经跑完了,开始走增量的数据处理逻辑呢?有没有什么api可以知道的或者怎么打个标记?
这个属于同步的指标。需要看楼主使用哪种同步方案,Debezium、或者是FlinkCDC,前端可以通过JMX指标来判断,后者理论也有相应的指标
楼主你好,你可以看一下flink的Checkpoint。Flink的Checkpoint机制的核心思想实质上是通过Barrier来标记触发快照的时间点和对应需要进行快照的数据集,将数据流处理和快照操作解耦开来,从而最大程度降低快照对系统性能的影响。
Checkpoint机制可以实现的,Flink有两种基本类型的状态:托管状态(Managed State)和原生状态(Raw State)。从名称中也能读出两者的区别:Managed State是由Flink管理的,Flink帮忙存储、恢复和优化,Raw State是开发者自己管理的,需要自己序列化。
Flink提供了Checkpoint机制,可以用来记录数据处理的进度,以便在出现故障时可以从Checkpoint中恢复,也可以用来判断全量数据是否处理完毕,从而开始走增量数据处理逻辑。 Flink提供了Checkpoint的API,可以用来记录Checkpoint,以及检查Checkpoint是否完成,从而判断全量数据是否处理完毕,开始走增量数据处理逻辑。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。