文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

请问flink cdc中针对oracle大表全量阶段的split chunk有没有什么加速手段？

请问flink cdc中针对oracle大表全量阶段的split chunk有没有什么加速手段或者配置,我现在有配置scan.incremental.snapshot.chunk.size调到3w, 同步一个不到2千万的表chunk时间花费了15分钟，同步花费5分钟。

展开

收起

十一0204 2023-07-19 16:45:18 524 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

在 Flink CDC 中，针对 Oracle 大表的全量同步阶段，可以通过以下几种方式来加速 Split Chunk 的过程：

提高 Flink CDC 的并行度：在 Flink CDC 中，Split Chunk 的并行度会影响全量同步的速度，因此可以通过提高 Flink CDC 的并行度来加速 Split Chunk 的过程。可以通过增加并行任务的数量、调整任务分配策略等方式来提高 Flink CDC 的并行度。

调整 Split Chunk 的参数：Flink CDC 提供了一些参数可以调整 Split Chunk 的行为，例如 split.column、split.size、split.fetch-size 等参数，可以根据具体情况进行调整。例如，可以尝试增加 split.fetch-size 参数的值，以提高每次拉取数据的数量，从而加速 Split Chunk 的过程。

使用增量同步方式：如果 Oracle 表已经存在于 Flink CDC 的状态后端中，可以尝试使用增量同步方式，避免进行全量同步。在增量同步中，Flink CDC 会通过监听 Oracle 表的变化来增量同步数据，相比于全量同步，可以大大减少同步数据量，从而加速同步的过程。

使用其他工具辅助：如果以上方法仍然无法满足需求，可以考虑使用其他工具辅助 Split Chunk 的过程。例如，可以使用 Oracle 自带的数据导出工具或第三方工具，将 Oracle 表的数据导出为多个文件，然后将这些文件导入到 Flink CDC 中进行同步。

2023-07-29 21:07:49

赞同展开评论

问答分类：

Oracle 关系型数据库流计算实时计算 Flink版

问答标签：

实时计算 Flink版oracle全量实时计算 Flink版cdc oracle全量 cdc Oracle数据库一键上云全量 flink cdc Oracle数据库一键上云全量 flink Oracle数据库一键上云全量

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink CDC里cdc chunk算法并发读多个chunk之间的low hign点位会有重叠吗？

235

1

0

Flink CDC为啥划分600个chunk在执行了4个就停了呢?

280

1

0

Flink CDC中oracle-cdc全量没有问题，增量也没有问题，但是持续跑一段时间出这个错了？

277

1

0

flink CDC3.0 第一次全量同步Oracle 数据， split chunks 一会就中断

638

1

0

在Flink CDC中，我这个表才30多万的数据，咋分这么多chunk啊？

170

1

0

在Flink CDC中，这是Postgres的源码，这是每个chunk有10条数据的意思吗？

208

1

0

请问下Flink，需求做一个宽表，有大量大表join，如果需要跑大数据量的历史数据该怎么处理？

299

0

0

在Flink CDC中chunk 切分策略可以用其他的策略吗？

275

0

0

对于Flink CDC，oracle cdc 获取有主键的表的时候能获取全量数据这咋回事？

334

1

0

在Flink CDC中oceanbase oracle initial模式全量转增量读取报错怎么办？

503

7

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

斗篷系统数据库架构设计：基于阿里云RDS的数据管理实践

阿里云服务器ECS系统盘ESSD AutoPL、ESSD 云盘和ESSD Entry有什么区别？如何选择？

阿里云服务器ESSD AutoPL、ESSD、ESSD Entry 有什么区别？该怎么选系统盘？

阿里云服务器ECS三种ESSD云盘完整解析：IOPS、吞吐差异与业务选型方案

热门讨论

热门文章

Flink cdc sqlserver 希望不同步某些数据行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

Flink CDC刚刚写了几条数据，但是里面有点问题，其他字段都是正常的。这是咋回事呀？

有用flink cdc同步mysql到hive这样搞过的源码吗?

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

有人遇到flink打不开web界面吗？

flink k8s navtive application 这种部署模式怎么发布算子啊？

flinkcdc在IDEA运行正常，打包就报错

Flink On Docker 启动 jm 时报这个错误请问有知道这个错误的原因吗？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

展开全部

还有其他疑问?