大家有遇到这个问题吗,cdc全量转增量后,checkpoint失败,同时获取不到增量数据 正常日志 Triggering checkpoint 后有做快照 2023-04-06 13:47:51,451 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Triggering checkpoint 2 (type=CHECKPOINT) @ 1680760071449 for job 08dee972e8413ca5c66c6c3fa5f2c04c. 2023-04-06 13:47:51,451 DEBUG org.apache.flink.runtime.source.coordinator.SourceCoordinator [] - Taking a state snapshot on operator Source: MySQL CDC Source -> Map -> Process -> (Flat Map, Flat Map, Flat Map, 异常日志 触发checkpoint后没操作,然后10分钟后报checkpoint超时 2023-04-06 13:48:21,452 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Triggering checkpoint 3 (type=CHECKPOINT) @ 1680760101449 for job 08dee972e8413ca5c66c6c3fa5f2c04c. 2023-04-06 13:48:24,167 DEBUG org.apache.flink.runtime.rest.handler.legacy.metrics.MetricFetcherImpl [] - Start fetching metrics."
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
根据您提供的日志信息,您的Flink作业在尝试从全量数据同步切换到增量数据同步时遇到了Checkpoint失败的问题,并且无法获取增量数据。结合知识库中的参考资料,以下是对该问题的分析与解决建议:
检查并调整Checkpoint间隔时间:根据业务需求和数据量大小,适当减小execution.checkpointing.interval
的值,例如设置为5分钟或更短,以减少进入增量阶段的等待时间。
确认全量到增量的正确切换:确保在全量读取完成后确实等待了一个Checkpoint周期再开始增量读取,避免数据不一致。对于多并发读取,需特别注意这一点。
监控资源使用情况:检查作业运行时的CPU、内存及网络资源使用,确保没有资源不足导致的Checkpoint延迟或失败。
优化Python UDF性能(如适用):如果作业中包含Python算子,考虑调小其内部缓存大小,通过设置python.fn-execution.bundle.size
和python.fn-execution.bundle.time
来减少Checkpoint时需要处理的数据量。
查看具体错误日志:详细分析日志中是否有其他异常信息,特别是与Checkpoint相关的错误细节,这有助于定位问题所在。
考虑重启策略:配置合理的重启策略,如增加restart-strategy.fixed-delay.attempts
的值,以应对Checkpoint失败后的自动恢复能力。
请按照上述步骤逐一排查并调整,若问题依旧存在,建议进一步收集详细的作业配置信息和完整的错误日志,以便进行深入分析。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。