文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

请问flink cdc中针对oracle大表全量阶段的split chunk有没有什么加速手段？

请问flink cdc中针对oracle大表全量阶段的split chunk有没有什么加速手段或者配置,我现在有配置scan.incremental.snapshot.chunk.size调到3w, 同步一个不到2千万的表chunk时间花费了15分钟，同步花费5分钟。

展开

收起

十一0204 2023-07-19 16:45:18 512 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

在 Flink CDC 中，针对 Oracle 大表的全量同步阶段，可以通过以下几种方式来加速 Split Chunk 的过程：

提高 Flink CDC 的并行度：在 Flink CDC 中，Split Chunk 的并行度会影响全量同步的速度，因此可以通过提高 Flink CDC 的并行度来加速 Split Chunk 的过程。可以通过增加并行任务的数量、调整任务分配策略等方式来提高 Flink CDC 的并行度。

调整 Split Chunk 的参数：Flink CDC 提供了一些参数可以调整 Split Chunk 的行为，例如 split.column、split.size、split.fetch-size 等参数，可以根据具体情况进行调整。例如，可以尝试增加 split.fetch-size 参数的值，以提高每次拉取数据的数量，从而加速 Split Chunk 的过程。

使用增量同步方式：如果 Oracle 表已经存在于 Flink CDC 的状态后端中，可以尝试使用增量同步方式，避免进行全量同步。在增量同步中，Flink CDC 会通过监听 Oracle 表的变化来增量同步数据，相比于全量同步，可以大大减少同步数据量，从而加速同步的过程。

使用其他工具辅助：如果以上方法仍然无法满足需求，可以考虑使用其他工具辅助 Split Chunk 的过程。例如，可以使用 Oracle 自带的数据导出工具或第三方工具，将 Oracle 表的数据导出为多个文件，然后将这些文件导入到 Flink CDC 中进行同步。

2023-07-29 21:07:49

赞同展开评论

问答分类：

Oracle 关系型数据库流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC Oracle数据库一键上云flink flink cdc Oracle数据库一键上云实时计算 Flink版cdc oracle 实时计算 Flink版oracle

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在Flink CDC中Oracle redolog 频繁切换，是上面哪个原因呢？

229

0

0

在Flink CDC中，我这个表才30多万的数据，咋分这么多chunk啊？

154

1

0

在Flink CDC中，这是Postgres的源码，这是每个chunk有10条数据的意思吗？

198

1

0

在Flink CDC中chunk 切分策略可以用其他的策略吗？

258

0

0

对于Flink CDC，oracle cdc 获取有主键的表的时候能获取全量数据这咋回事？

319

1

0

对于Flink CDC，使用oracle-cdc时下面的错误有遇到的吗?

324

0

0

在Flink CDC中oceanbase oracle initial模式全量转增量读取报错怎么办？

495

7

0

FlinkCDC Oracle使用Table Api和FlinkSQL读取全量，每次都是最后一条

283

0

0

Flink CDC 连接 Oracle ADG 备库（只读模式）失败问题

487

2

0

在Flink CDC中Chunk 跑了一半突然就没继续了也没报错是什么原因？

272

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

阿里云云原生数据仓库AnalyticDB对接使用全流程指南

阿里云云数据库SelectDB版完全对接指南：从零搭建实时数仓到生产级运维

哔哩哔哩基于阿里云PolarDB与通义千问构建全域内容洞察新框架

2026年企业上云热门阿里云产品与活动指南：省钱攻略全解析

Text-to-SQL进阶小工具-text2sql 智能查询小工具

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

有用flink cdc同步mysql到hive这样搞过的源码吗?

Flink CDC里这个问题怎么解决？

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

flinkcdc在IDEA运行正常，打包就报错

展开全部

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

接着！！Apache Flink 全领域干货合集（持续更新）

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

如何在 PyFlink 1.10 中自定义 Python UDF？

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

使用 Kafka 和 Flink 构建实时数据处理系统

展开全部

还有其他疑问?