文档备案控制台

开发者社区大数据与机器学习正文

Flink CDC中用 SQL 方式配置 Flink CDC 任务，同一个 Job 中声明了多张表?

Flink CDC中用 SQL 方式配置 Flink CDC 任务，同一个 Job 中声明了多张表，最后任务提交后发现 MySQL 侧是多次订阅，这种场景有什么好的解决方案吗，保证 MySQL 侧只订阅一次？

展开

收起

真的很搞笑 2023-06-11 15:06:56 266 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在 Flink CDC 中，如果同一个 Job 中声明了多张表，可能会导致 MySQL 侧多次订阅 Binlog 数据的问题。这种场景下，可以通过以下解决方案来优化，确保 MySQL 侧只订阅一次 Binlog 数据：

1. 开启 Source 复用功能

Flink 提供了 Source 复用的功能，可以将具有相同配置参数的 MySQL 源表合并为一个 Binlog 连接，从而减少对 MySQL 的压力。

操作步骤：

在 SQL 作业中通过 SET 命令开启 Source 复用功能：
```
SET 'table.optimizer.source-merge.enabled' = 'true';
```
注意：开启 Source 复用后，需要以无状态的方式启动作业（即全新启动），因为 Source 复用会导致作业拓扑发生变化，从原有状态可能无法正常启动或可能导致数据丢失。

效果：

全量读取阶段：Binlog 连接数等于 Source 并发度。
增量读取阶段：Binlog 连接数等于 1。

2. 配置相同的 Server ID 范围

当多个 MySQL CDC 源表使用相同的配置时，可以通过为这些表配置相同的 server-id 范围来实现数据源的复用，从而避免多次订阅 Binlog 数据。

操作步骤：

在 SQL 语句中为每个 MySQL CDC 源表指定相同的 server-id 范围。例如：

INSERT INTO target_table_1
SELECT * FROM source_table_1 /*+ OPTIONS('server-id' = '5400-5408') */;

INSERT INTO target_table_2
SELECT * FROM source_table_2 /*+ OPTIONS('server-id' = '5400-5408') */;

重要提示：server-id 范围中的唯一 ID 数量必须大于等于作业的并发度。例如，范围 5400-5408 提供了 9 个唯一的 server-id，因此作业最多可以设置 9 个并发。

3. 将表同步到 Kafka 消息队列

如果 MySQL 侧的压力过大，可以考虑将表的数据先同步到 Kafka 消息队列中，再通过消费 Kafka 中的数据进行解耦。

操作步骤：

使用 Flink CDC 将 MySQL 表的数据同步到 Kafka。
在下游任务中消费 Kafka 中的数据，完成后续处理。

优点：

减少对 MySQL 的直接连接压力。
提高数据消费速度，解决消费同一个 Binlog 导致的数据瓶颈。

4. 合并多个 CTAS 作业

如果通过 CTAS（Create Table As Select）方式同步数据导致 MySQL 压力过大，可以将多个 CTAS 作业合并为一个作业运行，并为每个 MySQL CDC 源表配置相同的 server-id，从而实现数据源的复用。

操作步骤：

将多个 CTAS 语句合并为一个作业。例如：

CREATE TABLE target_table_1 AS SELECT * FROM source_table_1;
CREATE TABLE target_table_2 AS SELECT * FROM source_table_2;

确保所有源表的 server-id 配置一致。

5. 使用正则表达式匹配多张表

如果需要监控多张表，可以通过正则表达式匹配表名，从而减少重复声明表的数量。

操作步骤：

在 table-name 参数中使用正则表达式匹配多张表。例如：
```
'table-name' = 'user_.*'
```
上述配置会监控所有以 user_ 为前缀的表。

注意事项：

正则表达式不支持逗号分隔形式指定多张表，需使用竖线（|）连接并用小括号包围。例如：
```
'table-name' = '(user|product)'
```

6. 监控和调优

为了进一步优化性能，可以结合 Flink 的自动调优功能（Autopilot）来动态调整资源分配。

操作步骤：

在作业运维页面，将自动调优模式设置为 Active 模式。
自动调优会根据流量情况动态调整并发度，从而节约计算资源。

总结建议

优先推荐：开启 Source 复用功能，并为所有 MySQL CDC 源表配置相同的 server-id 范围。
如果 MySQL 压力仍然较大，可以考虑将数据同步到 Kafka 消息队列中进行解耦。
对于复杂的多表场景，使用正则表达式匹配表名，减少重复声明表的数量。

通过以上方法，可以有效减少 MySQL 侧的多次订阅问题，同时提升整体作业的性能和稳定性。您可以复制页面截图提供更多信息，我可以进一步帮您分析问题原因。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

SQL 关系型数据库 MySQL 流计算实时计算 Flink版云数据库 RDS MySQL 版

问答标签：

实时计算 Flink版CDC SQL配置实时计算 Flink版任务 flink SQL 实时计算 Flink版SQL

问答地址：

开发者社区 > 大数据与机器学习 > 问答

相关问答

使用Flink CDC 同步MySQl。配置了多张表，有一张A表删除了字段，然后停止同步后怎么做？

261

1

0

flink CDC中，同步任务重并没有同步mysql某张表，如果未被同步的表结构变更了怎么办？

434

3

0

flink 1.15进行cdc 监听logical 某张表日志运行一段时间后，发现有以下这个异常？

170

1

0

对于Flink CDC，这个tables支持多张表吗？

184

1

0

在Flink CDC中有版本支持oracle动态加表吗（一个任务同步多张表，可以动态添加订阅）？

331

1

0

问一下flink批处理，join超20张表会报空指针，这边是不是有什么限制在里面？

291

7

0

在Flink CDC中假如有1张表报错，就会造成其余100张表的抽数也失败，如何解决？

154

0

0

Flink cdc-pipeline-doris-3.0 新增了第五张表全量同步怎么排查？

192

0

0

flink cdc抽取postgres到postgres 2张表的全量数据，这是什么情况？

175

0

0

flink cdc抽取hologres 2张表采用的增量，这个问题怎么解决？

196

0

0

大数据与机器学习

大数据领域前沿技术分享与交流，这里不止有技术干货、学习心得、企业实践、社区活动，还有未来。

我要提问

相关文章

MySQL LIKE查询太慢？手把手搭建Elasticsearch站内搜索

智能问数（Text2SQL）工业级落地，纯 AI 黑盒方案都没戏

PolarDB 分布式版 AI 助手正式上线！现邀你立即解锁专属“数字 DBA”

2026阿里云服务器价格解析：最低38元1年起，热门实例活动价格与选购指南参考

数据库监控的进化：从“救火式”故障响应到预测性运维实战

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

无需邀请码，OpenManus 搞定复杂任务

Flink 与 Hologres 搭建实时数仓

原生 SQL 轻松实现多模态智能检索

企业多账号配置统一合规审计

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

数据来源：com.alibaba.fastjson.JSONException: syntax er

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

有用flink cdc同步mysql到hive这样搞过的源码吗?

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

flinkcdc在IDEA运行正常，打包就报错

调用数据源服务失败：调用数据源服务失败：获取实例的详细信息失败,请检查RDS购买者id和RDS实例名

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

展开全部

身怀绝技的开发者们，快来DataV玩转可视化组件

阿里封神谈hadoop生态学习之路

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

odps是什么?

【技术实验】mysql准实时同步数据到Elasticsearch

数据仓库介绍与实时数仓案例

分布式快照算法: Chandy-Lamport

DataV接入ECharts图表库可视化利器强强联手

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

展开全部

还有其他疑问?