大佬，Flink CDC中同一SQL中的多表，同源的情况下，IO有做优化整合吗，还是一个表拉一份全?

大佬，Flink CDC中同一SQL中的多表，同源的情况下，IO有做优化整合吗，还是一个表拉一份全量binlog？

展开

收起

真的很搞笑 2023-06-11 15:55:57 244 版权

阿里云 AI 助理回答

在Flink CDC中，针对同一SQL中的多表，如果这些表来源于同一个MySQL实例，并且配置相同（如hostname、port、username、password等参数一致），Flink CDC会对IO进行优化整合，避免每个表单独拉取全量Binlog。这种优化主要通过Source复用机制实现。

1. Source复用机制

Flink CDC支持对多个MySQL CDC源表进行合并复用，前提是这些源表的配置项除了数据库名、表名和server-id外完全相同。开启Source复用后，Flink会尽可能将同一个作业中能够合并的MySQL CDC源表进行合并，从而减少对MySQL实例的连接数和读取压力。

如何开启Source复用
在SQL作业中使用以下SET命令启用Source复用功能：
```
SET 'table.optimizer.source-merge.enabled' = 'true';
```
启用后，Flink会自动对符合条件的CDC源表进行合并，减少重复的全量数据扫描和Binlog读取操作。
注意事项
- VVR版本要求：实时计算引擎VVR 8.0.7及以上版本支持Source复用功能。
- 并发与Server ID范围：在开启Source复用时，需要确保server-id范围足够大，以支持合并后的并发需求。例如，如果并行度为3，则server-id范围至少需要包含3个唯一值。
- 无状态启动：启用Source复用后，建议以无状态方式启动作业，因为Source复用会导致作业拓扑发生变化，可能无法从原有状态恢复或导致数据丢失。

2. 全量数据扫描优化

在全量阶段，Flink CDC会对每个表的数据进行分片（chunk）处理，并记录下Binlog位点。对于多个表，Flink CDC会尽量复用相同的连接和资源，避免重复扫描整个Binlog文件。具体优化包括： - 分片参数调整：通过设置scan.incremental.snapshot.chunk.size参数，可以控制每个分片的数据量，从而优化内存使用。 - 增量快照算法：Flink CDC采用增量快照算法，逐个读取分片数据，并在Checkpoint中记录已完成的分片。当发生Failover时，只需继续读取未完成的分片。