开发者社区大数据与机器学习正文

Flink CDC中oracle cdc 增量同步的性能问题大伙有遇到吗？

Flink CDC中oracle cdc 增量同步的性能问题大伙有遇到吗？https://www.infoq.cn/article/pGakNSLI9xUfEj9HtOlT这篇文章里说的优化，群里的大佬有做过类似的优化吗

展开

收起

真的很搞笑 2023-05-23 17:37:12 212 版权

阿里云 AI 助理回答

在使用 Flink CDC 进行 Oracle CDC 增量同步时，性能问题确实是一个常见的挑战。根据知识库中的相关资料以及行业实践，以下是一些可能的优化方法和建议，供您参考：

1. Oracle LogMiner 的性能瓶颈

Oracle CDC 使用 LogMiner 技术来解析日志文件，但在大数据量场景下，LogMiner 的读取效率可能会成为性能瓶颈。
优化建议： - 升级到更高版本的 Oracle CDC：例如，Dataphin V3.13 版本后使用的是 Oracle CDC 2.4，相较于之前的版本有性能改进。 - 调整 startScn 和 endScn 参数：通过合理设置这些参数，减少需要加载的日志文件范围，从而提升性能。 - 避免 PDB 上直接执行 LogMiner：如果您的数据库是多租户架构（CDB/PDB），确保在 CDB 数据库中读取 PDB 的补偿日志，并配置 debezium.database.pdb.name 参数。

2. Flink CDC 配置优化

Flink CDC 的性能优化可以从以下几个方面入手：

(1) 异步 I/O 优化

在维表 Join 场景中，开启异步模式可以显著提升吞吐性能。通过配置 table.exec.async-lookup.key-ordered-enabled 参数，可以在保证更新流正确性的同时，提升异步 I/O 的吞吐性能。
配置示例：

SET table.exec.async-lookup.key-ordered-enabled=true;

(2) Checkpoint 间隔优化

如果全量同步完成后进入增量阶段的时间较长，可能是由于 Checkpoint 间隔设置过大导致的。建议根据业务需求调整合理的 Checkpoint 间隔时间。
配置示例：

execution.checkpointing.interval: 5min

(3) Source 复用

如果多个 CDC 作业同时运行，可能会对数据库造成较大压力。可以通过将数据先同步到 Kafka 消息队列中，再消费 Kafka 数据进行解耦，从而减轻数据库压力。

3. 表结构与字段优化

Oracle CDC 在处理表结构时可能存在一些限制，以下是一些常见问题及优化建议：

(1) 表名长度限制

Oracle LogMiner 对表名和列名的长度有限制（≤30个字符）。如果表名过长，可能导致同步失败。建议在设计表结构时遵循这一限制。

(2) 字段名大小写敏感

如果出现 DataException: file不是有效的字段名 错误，可能是因为字段名大小写不一致。确保 Flink 中字段的名字大小写与 Oracle 表完全一致。

4. 监控与诊断

为了更好地排查性能问题，可以利用以下监控手段：

(1) 指标监控

通过监控 currentEmitEventTimeLag 指标，判断是否已完成全量数据同步并进入增量阶段。当该指标大于 0 时，表示已进入 Binlog 读取阶段。

(2) 日志分析

在 MySQL CDC 源表所在的 TM 日志中查找 BinlogSplitReader is created 日志，确认是否读取完全量数据。

5. 其他优化建议

合并多个 CTAS 作业：将多个 CDC 作业合并为一个作业运行，并为每个 MySQL CDC 源表配置相同的 Server ID，实现数据源复用，减小数据库压力。
带宽优化：如果数据量不大但 Flink 读取时消耗大量带宽，可能是因为 Binlog 是实例级别的记录。通过 Source 复用可以避免更多的带宽使用。