开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC还有其它方式能解决原本的任务数据的一致性么?

Flink CDC中msyql短时间内写入大批量数据 正常读取的cdc任务就会不断的报这个错误 重启,有时候能成功 有时候重启也还是报这个错误,目前还未修复,除了等写入任务结束后,重启任务从最新的日志读,然后补数据,还有其它方式能解决原本的任务数据的一致性么?image.png
目前我这边后续还会经常有大批数据写入的情况 不然每次都得补一遍数据了,这个值默认的30s 我昨天测试加到60s 300s还是会出现image.png

展开
收起
真的很搞笑 2023-11-22 07:08:11 41 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在Flink CDC中,如果MySQL在短时间内写入大量数据,可能会导致CDC任务出现错误。这是因为Flink CDC在处理数据时需要消耗一定的系统资源,而大量的数据写入可能会超出系统的处理能力。

    除了等待写入任务结束、重启任务并从最新的日志读取之外,还有以下几种可能的方式可以解决该问题:

    1. 增加任务并发度:通过将任务拆分为多个子任务并行执行,可以减轻单个任务的负载压力。
    2. 调整Flink CDC的配置参数:例如增大checkpoint间隔、减小buffer size等,以减少系统的负担。
    3. 优化数据处理逻辑:尽量减少不必要的计算操作,提高任务的执行效率。
    2023-11-29 15:43:43
    赞同 展开评论 打赏
  • 1:尝试增大点心跳时间
    2:采集文件数量增大点,不过我好像没遇到你的钱问题,我晚上也会有离线百万的数据来刷数据到mysql,mysql-cdc一直是好的,目前没人修复的话,只能不断通过该参数调试的,此回答整理自钉群“Flink CDC 社区”

    2023-11-22 10:58:00
    赞同 展开评论 打赏
  • 除了等待写入任务结束后重启任务从最新的日志读并补数据外,还可以尝试以下方式来保证原本的任务数据的一致性:

    1. 增加Flink CDC任务的并行度,以提高其处理能力。
    2. 调整Flink CDC任务的checkpoint间隔时间,以减少checkpoint的频率,从而降低对MySQL写入任务的影响。
    3. 在Flink CDC任务中添加一个buffer机制,将读取到的数据先缓存起来,等到MySQL写入任务完成后再一次性处理这些数据。
    4. 使用Flink CDC的kafka connector将数据先写入Kafka,然后再由另一个Flink任务从Kafka中读取数据进行处理。这样可以避免直接与MySQL写入任务竞争资源的问题。
    2023-11-22 10:23:21
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 覃立辉 立即下载
    Flink CDC Meetup PPT - 孙家宝 立即下载
    Flink CDC Meetup PPT - 徐榜江 立即下载