Flink CDC这个表才 7万多行，是不是可以优化一下split的参数？

Flink CDC这个表才 7万多行，是不是可以优化一下split的参数？Execute ScanFetchTask for split: SnapshotSplit{tableId=rls_schema.t_bd_materialgroup, splitId='rls_schema.t_bd_materialgroup:843', splitKeyType=[fdbid BIGINT NOT NULL], splitStart=[1653290424519647393], splitEnd=[1653301491019184407], highWatermark=null}
rls_schema.t_bd_materialgroup

展开

收起

真的很搞笑 2023-12-31 20:41:34 151 版权

阿里云 AI 助理回答

根据您提供的信息，Flink CDC 表的数据量为 7 万多行，当前的 split 参数可能需要优化以提升性能。以下是针对该问题的详细分析和优化建议：

1. 分片参数优化

在 Flink CDC 中，表数据会被分成多个分片（chunk），每个分片会通过主键字段进行划分并逐个读取。如果分片大小设置不合理，可能会导致内存占用过高或任务执行效率低下。

关键参数：`scan.incremental.snapshot.chunk.size`

作用：控制每个分片中包含的数据条数。
默认值：通常默认值较大，可能导致单个分片数据过多，从而引发内存问题（如 OOM）。
优化建议：
- 如果您的表只有 7 万多行，可以适当减少 scan.incremental.snapshot.chunk.size 的值，例如设置为 5000 或 10000，以确保每个分片的数据量适中。
- 示例配置：
```
/*+ OPTIONS('scan.incremental.snapshot.chunk.size'='5000') */
```

分片字段选择

默认行为：对于有联合主键的表，默认使用主键中的第一个字段进行分片。
潜在问题：如果主键的第一个字段值分布不均匀（例如大量数据具有相同的值），可能导致某些分片数据量过大，进而引发 TaskManager 内存不足（OOM）。
优化建议：
- 使用 scan.incremental.snapshot.chunk.key-column 指定一个分布更均匀的字段作为分片字段。
- 示例配置：
```
/*+ OPTIONS('scan.incremental.snapshot.chunk.key-column'='fdbid') */
```

2. TaskManager 内存优化

如果分片数据量较大，可能会导致 TaskManager 出现 OOM 问题。可以通过以下方式优化内存配置：

调整 TaskManager 堆内存

方法：增加 TaskManager 的堆内存大小。
操作步骤：
1. 在作业运行参数中，调整 taskmanager.memory.process.size 的值。
2. 示例配置：
```
taskmanager.memory.process.size: 4g
```

升级 Flink 版本

背景：在 VVR 8.0.8 及之前版本中，最后一个分片可能需要读取大量数据，容易导致 OOM。
建议：升级到 VVR 8.0.9 或更高版本，以避免该问题。

3. Checkpoint 和 State 配置优化

为了进一步提升性能，可以优化 Checkpoint 和 State 相关参数：

Checkpoint 间隔

作用：控制 Checkpoint 的频率，影响任务的容错能力和性能。
建议值：对于 7 万多行的小表，可以适当增加 Checkpoint 间隔，例如设置为 300s。
示例配置：
```
execution.checkpointing.interval: 300s
```

State TTL

作用：设置 State 数据的生命周期，避免无用数据占用内存。
建议值：根据业务需求设置合理的 TTL，例如 129600000ms（36 小时）。
示例配置：
```
table.exec.state.ttl: 129600000
```

4. 开启 Source 复用

如果作业中包含多张 MySQL 源表，建议开启 Source 复用功能，以减少 Binlog 连接数，降低数据库压力。

开启方式

配置命令：

SET 'table.optimizer.source-merge.enabled' = 'true';

注意事项：
- 开启 Source 复用后，作业拓扑会发生变化，因此需要无状态启动。
- 对于全量读取阶段，Binlog 连接数等于 Source 并发度；对于增量读取阶段，Binlog 连接数等于 1。

5. 其他优化建议

微批处理（Mini-Batch）

作用：通过批量处理数据，减少网络传输开销，提升吞吐量。

建议配置：

table.exec.mini-batch.enabled: true
table.exec.mini-batch.allow-latency: 5s

PartialFinal 优化

适用场景：如果作业中使用了 COUNT DISTINCT，且存在热点问题，可以开启 PartialFinal 优化。

开启方式：

table.optimizer.distinct-agg.split.enabled: true

注意事项：
- 不能在包含 UDAF 的 SQL 中使用。
- 数据量较少时不建议开启，以免浪费资源。

总结

针对您提到的 7 万多行的 Flink CDC 表，建议从以下几个方面进行优化： 1. 调整 scan.incremental.snapshot.chunk.size 和 scan.incremental.snapshot.chunk.key-column 参数，优化分片策略。 2. 增加 TaskManager 内存或升级 Flink 版本，避免 OOM 问题。 3. 优化 Checkpoint 和 State 配置，提升任务稳定性和性能。 4. 开启 Source 复用功能，减少 Binlog 连接数。 5. 根据实际需求，启用 Mini-Batch 和 PartialFinal 优化。

通过以上优化措施，可以显著提升 Flink CDC 表的读取效率和任务稳定性。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版cdc优化实时计算 Flink版优化实时计算 Flink版参数实时计算 Flink版cdc参数

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

打造可编程可集成的实时计算平台：阿里云实时计算 Flink被集成能力深度解析

Flink Forward Asia 2025 城市巡回 · 深圳站

官宣 | Apache Fluss (Incubating) 0.8 发布公告

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破

打造可编程可集成的实时计算平台：阿里云实时计算 Flink被集成能力深度解析

Flink CDC这个表才 7万多行，是不是可以优化一下split的参数？

1. 分片参数优化

关键参数：`scan.incremental.snapshot.chunk.size`

分片字段选择

2. TaskManager 内存优化

调整 TaskManager 堆内存

升级 Flink 版本

3. Checkpoint 和 State 配置优化

Checkpoint 间隔

State TTL

4. 开启 Source 复用

开启方式

5. 其他优化建议

微批处理（Mini-Batch）

PartialFinal 优化

总结

实时计算 Flink

相关文章

热门讨论

热门文章

Flink CDC这个表 才 7万多行，是不是可以优化一下split的参数？

1. 分片参数优化

关键参数：scan.incremental.snapshot.chunk.size

分片字段选择

2. TaskManager 内存优化

调整 TaskManager 堆内存

升级 Flink 版本

3. Checkpoint 和 State 配置优化

Checkpoint 间隔

State TTL

4. 开启 Source 复用

开启方式

5. 其他优化建议

微批处理（Mini-Batch）

PartialFinal 优化

总结

实时计算 Flink

相关文章

热门讨论

热门文章

Flink CDC这个表才 7万多行，是不是可以优化一下split的参数？

关键参数：`scan.incremental.snapshot.chunk.size`