Flink CDC batch模式就是多分片多路复用了这是哪里有设置么？

Flink CDC SingleThreadMultiplexSourceReaderBase stream模式下多分分片多路读 batch模式就是多分片多路复用了这是哪里有设置么？

展开

收起

真的很搞笑 2023-12-24 19:26:29 222 版权

阿里云 AI 助理回答

在Flink CDC中，SingleThreadMultiplexSourceReaderBase 是用于实现多分片读取的核心组件之一。根据知识库中的信息，Flink CDC 在流模式（stream模式）和批模式（batch模式）下对多分片的处理方式有所不同，具体设置和配置如下：

1. 流模式下的多分片多路读

在流模式下，Flink CDC 使用增量快照算法来实现多分片的并发读取。这种机制允许在全量阶段（snapshot阶段）和增量阶段（binlog/WAL阶段）分别进行优化。

全量阶段：
- Flink CDC 将表按照主键分成多个分片（chunk），并使用增量快照算法通过 SELECT 语句逐个读取每个分片的数据。
- 分片的划分可以通过以下参数进行调整：
- scan.incremental.snapshot.chunk.size：控制每个分片的数据条数。如果分片数据过多导致内存溢出（OOM），可以减少该值以降低单个分片的数据量。
- scan.incremental.snapshot.chunk.key-column：指定用于分片的字段。对于联合主键表，默认使用第一个字段进行分片。如果存在大量相同值的情况，可能导致某些分片数据过多，建议手动指定其他字段进行分片划分。
增量阶段：
- 在完成全量数据读取后，Flink CDC 自动切换到增量读取阶段，从之前记录的 Binlog/WAL 位点开始读取变更数据。
- 增量阶段支持多路复用，即多个分片共享同一个 Binlog 连接。这可以通过开启 Source 复用 功能进一步优化：
```
SET 'table.optimizer.source-merge.enabled' = 'true';
```
开启 Source 复用后，具有相同配置参数的 MySQL 源表会合并 Binlog 连接，从而减少数据库的压力。

2. 批模式下的多分片多路复用

在批模式下，Flink CDC 的行为与流模式类似，但更注重性能优化和资源利用效率。批模式下默认启用多分片多路复用，主要体现在以下方面：

分片划分：
- 批模式下同样使用增量快照算法，将表划分为多个分片，并通过并发读取提高性能。
- 分片参数的设置与流模式一致，包括 scan.incremental.snapshot.chunk.size 和 scan.incremental.snapshot.chunk.key-column。
多路复用：
- 批模式下默认启用多路复用机制，多个分片共享相同的读取资源，避免重复连接和资源浪费。
- 如果需要进一步优化，可以通过调整 TaskManager 的内存配置来提升性能。例如，增加 TaskManager 的堆内存以应对大分片数据的读取需求。

3. 配置示例

以下是一个典型的配置示例，展示如何在流模式和批模式下启用多分片多路读取：

-- 设置分片参数
SET 'scan.incremental.snapshot.chunk.size' = '5000'; -- 每个分片包含5000条数据
SET 'scan.incremental.snapshot.chunk.key-column' = 'id'; -- 指定分片字段

-- 开启Source复用（仅适用于流模式）
SET 'table.optimizer.source-merge.enabled' = 'true';

-- 示例SQL查询
SELECT * FROM source_table1
/*+ OPTIONS('server-id'='123456-123457') */
LEFT JOIN source_table2
/*+ OPTIONS('server-id'='123458-123459') */
ON source_table1.id = source_table2.id;

4. 注意事项

内存优化：在 TaskManager 中，如果分片数据过大导致 OOM，建议升级到 VVR 8.0.9 及以上版本，或者调整 scan.incremental.snapshot.chunk.size 参数。
无状态启动：修改分片参数或启用 Source 复用后，作业需要以无状态方式启动，否则可能导致拓扑不匹配或数据丢失。
版本要求：上述功能需要实时计算 Flink 版本为 VVR 6.0.7 及以上。对于无主键表的支持，建议使用 VVR 8.0.1 及以上版本。