开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC中mongo-cdc 复制历史数据过慢有没啥解决方案啊?

Flink CDC中mongo-cdc 复制历史数据过慢有没啥解决方案啊,1小时才1千万条,,要同步到最新不知道何年何月去了?

展开
收起
cuicuicuic 2023-12-04 08:26:36 38 0
3 条回答
写回答
取消 提交回答
  • 用同步工具先全量 ,此回答整理自钉群“Flink CDC 社区”

    2023-12-05 09:16:40
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    MongoDB CDC连接器在复制历史数据时可能会存在效率问题。一种可能的解决方案是调整Flink作业的并行度,这可以优化任务性能。此外,您也可以考虑使用Flink的CDC机制,即Change Data Capture,该机制可以捕捉数据库表的增删改查操作,这是目前非常成熟的同步数据库变更方案。

    然而,请注意,虽然这些方法可以提高数据传输的效率,但它们可能无法完全解决问题,因为MongoDB CDC同步历史数据的速度本质上受限于源数据库MongoDB的性能和网络带宽。

    2023-12-04 13:41:00
    赞同 展开评论 打赏
  • 关于MongoDB CDC中数据同步速度慢的问题,您可以尝试以下解决方案:

    1. 检查MongoDB的性能和资源利用情况,确保MongoDB能够提供足够的读取速度。

    2. 检查Flink CDC配置中的相关参数,例如cdc.source.poll-interval(轮询间隔)和cdc.source.max-pending。

    3. 考虑使用Flink SQL或DataStream API进行数据加工,加工之后可以方便地写入到Flink所支持的各种下游系统中。

    4. 确保MongoDB节点之间能够进行相互复制数据,因为订阅MongoDB的Change Streams要求节点之间能够进行相互复制数据,单机MongoDB无法进行数据的互相拷贝,也没有Oplog,只有副本集或分片集的情况下才有数据复制机制。

    5. 考虑使用副本集模式部署MongoDB,因为副本集模式可以理解为是主从的一种升级版,双方互为主从,这种模式下数据复制更为高效。

    2023-12-04 08:52:22
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载