Flink CDC还有其它方式能解决原本的任务数据的一致性么？

Flink CDC中msyql短时间内写入大批量数据正常读取的cdc任务就会不断的报这个错误重启，有时候能成功有时候重启也还是报这个错误，目前还未修复，除了等写入任务结束后，重启任务从最新的日志读，然后补数据，还有其它方式能解决原本的任务数据的一致性么？
目前我这边后续还会经常有大批数据写入的情况不然每次都得补一遍数据了，这个值默认的30s 我昨天测试加到60s 300s还是会出现

展开

收起

真的很搞笑 2023-11-22 07:08:11 82 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在Flink CDC中，如果MySQL在短时间内写入大量数据，可能会导致CDC任务出现错误。这是因为Flink CDC在处理数据时需要消耗一定的系统资源，而大量的数据写入可能会超出系统的处理能力。

除了等待写入任务结束、重启任务并从最新的日志读取之外，还有以下几种可能的方式可以解决该问题：
1. 增加任务并发度：通过将任务拆分为多个子任务并行执行，可以减轻单个任务的负载压力。
2. 调整Flink CDC的配置参数：例如增大checkpoint间隔、减小buffer size等，以减少系统的负担。
3. 优化数据处理逻辑：尽量减少不必要的计算操作，提高任务的执行效率。
2023-11-29 15:43:43

赞同展开评论
芯在这

1:尝试增大点心跳时间
2:采集文件数量增大点，不过我好像没遇到你的钱问题，我晚上也会有离线百万的数据来刷数据到mysql，mysql-cdc一直是好的，目前没人修复的话，只能不断通过该参数调试的，此回答整理自钉群“Flink CDC 社区”

2023-11-22 10:58:00

赞同展开评论
sunrr
除了等待写入任务结束后重启任务从最新的日志读并补数据外，还可以尝试以下方式来保证原本的任务数据的一致性：
1. 增加Flink CDC任务的并行度，以提高其处理能力。
2. 调整Flink CDC任务的checkpoint间隔时间，以减少checkpoint的频率，从而降低对MySQL写入任务的影响。
3. 在Flink CDC任务中添加一个buffer机制，将读取到的数据先缓存起来，等到MySQL写入任务完成后再一次性处理这些数据。
4. 使用Flink CDC的kafka connector将数据先写入Kafka，然后再由另一个Flink任务从Kafka中读取数据进行处理。这样可以避免直接与MySQL写入任务竞争资源的问题。
2023-11-22 10:23:21

赞同展开评论

Flink CDC还有其它方式能解决原本的任务数据的一致性么？

实时计算 Flink

相关文章

热门讨论

热门文章