开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

使用flink cdc on yarn运行,先全量后增量的方式,这种情况咱们有什么好的建议吗?

使用flink cdc on yarn运行,先全量后增量的方式,采集数据到starrocks,碰到数据量太大的情况,比如5000万以上,就可能会遇到采集超时任务失败的情况,数据一致性得不到保障,这种情况咱们有什么好的建议吗?

展开
收起
cuicuicuic 2024-05-03 07:55:39 23 0
1 条回答
写回答
取消 提交回答
  • 使用spark抽离线,再抽取数据基于位点启动任务 ,此回答整理自钉群“【③群】Apache Flink China社区”

    2024-05-03 10:11:27
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
Flink CDC Meetup PPT - 覃立辉 立即下载
Flink CDC Meetup PPT - 孙家宝 立即下载
Flink CDC Meetup PPT - 徐榜江 立即下载