开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

请问flink cdc中针对oracle大表全量阶段的split chunk有没有什么加速手段?

请问flink cdc中针对oracle大表全量阶段的split chunk有没有什么加速手段或者配置,我现在有配置scan.incremental.snapshot.chunk.size调到3w, 同步一个不到2千万的表chunk时间花费了15分钟,同步花费5分钟。

展开
收起
十一0204 2023-07-19 16:45:18 240 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在 Flink CDC 中,针对 Oracle 大表的全量同步阶段,可以通过以下几种方式来加速 Split Chunk 的过程:

    提高 Flink CDC 的并行度:在 Flink CDC 中,Split Chunk 的并行度会影响全量同步的速度,因此可以通过提高 Flink CDC 的并行度来加速 Split Chunk 的过程。可以通过增加并行任务的数量、调整任务分配策略等方式来提高 Flink CDC 的并行度。

    调整 Split Chunk 的参数:Flink CDC 提供了一些参数可以调整 Split Chunk 的行为,例如 split.column、split.size、split.fetch-size 等参数,可以根据具体情况进行调整。例如,可以尝试增加 split.fetch-size 参数的值,以提高每次拉取数据的数量,从而加速 Split Chunk 的过程。

    使用增量同步方式:如果 Oracle 表已经存在于 Flink CDC 的状态后端中,可以尝试使用增量同步方式,避免进行全量同步。在增量同步中,Flink CDC 会通过监听 Oracle 表的变化来增量同步数据,相比于全量同步,可以大大减少同步数据量,从而加速同步的过程。

    使用其他工具辅助:如果以上方法仍然无法满足需求,可以考虑使用其他工具辅助 Split Chunk 的过程。例如,可以使用 Oracle 自带的数据导出工具或第三方工具,将 Oracle 表的数据导出为多个文件,然后将这些文件导入到 Flink CDC 中进行同步。

    2023-07-29 21:07:49
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载

    相关镜像