开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC怎么获取并行度啊？

展开

收起

真的很搞笑 2023-10-31 18:34:15 113 版权

阿里云 AI 助理回答

在Flink CDC中，获取并行度的方式与Flink作业的并行度配置密切相关。以下是详细的说明和操作步骤：

1. 并行度的基本概念

并行度（Parallelism）是指Flink作业中任务实例的最大并行执行数量。对于Flink CDC作业，并行度决定了从MySQL Binlog或其他数据源中读取数据的任务并发数。

全局并行度：可以通过配置全局并行度来设置整个作业的默认并行度。
自动推导并行度：在实时计算引擎VVR 8.0及以上版本中，Flink支持自动推导并行度功能，根据数据量动态调整并行度。

2. Flink CDC并行度的获取方式

（1）通过配置文件或代码显式设置

在Flink作业中，可以通过以下方式显式设置并行度： - 全局并行度：在Flink配置文件flink-conf.yaml中设置parallelism.default参数，或者在代码中通过env.setParallelism()方法指定。 - 算子级别并行度：针对特定算子（如Source、Sink等），可以单独设置并行度。例如：

sourceTable.setParallelism(4);

（2）通过自动推导获取并行度

在VVR 8.0及以上版本中，Flink CDC支持自动推导并行度功能。相关配置项如下： - execution.batch.adaptive.auto-parallelism.enabled：是否启用自动并行度推导，默认为true。 - execution.batch.adaptive.auto-parallelism.min-parallelism：允许的最小并行度，默认为1。 - execution.batch.adaptive.auto-parallelism.max-parallelism：允许的最大并行度，默认为128。 - execution.batch.adaptive.auto-parallelism.avg-data-volume-per-task：期望每个任务平均处理的数据量，默认为16MiB。

如果启用了自动推导功能，Flink会根据数据量动态调整并行度，无需手动设置。

3. MySQL CDC并行度的特殊配置

在使用Flink CDC读取MySQL Binlog时，并行度的设置需要结合增量快照框架和Server ID配置进行优化。

（1）未开启增量快照框架或并行度为1

当未开启增量快照框架或并行度为1时，可以指定一个固定的Server ID。例如：

SELECT * FROM source_table /*+ OPTIONS('server-id'='123456') */;

（2）开启增量快照框架且并行度大于1

当开启增量快照框架且并行度大于1时，需要指定Server ID范围，确保范围内可用的Server ID数量不小于并行度。例如，假设并行度为3，可以配置如下：

SELECT * FROM source_table /*+ OPTIONS('server-id'='123456-123458') */;

（3）多CDC源表的并行度配置

如果作业中包含多个MySQL CDC源表，且未开启Source复用，则需要为每个CDC源表提供不同的Server ID或Server ID范围。例如：

SELECT * FROM source_table1 /*+ OPTIONS('server-id'='123456-123457') */
LEFT JOIN source_table2 /*+ OPTIONS('server-id'='123458-123459') */
ON source_table1.id = source_table2.id;