Flink CDC 里同步的表中，支持多列主键表么？

Flink CDC 里同步的表中，支持多列主键表么？一个1000万条纪录的表，两列主键，一直显示检查点检查超时为什么?其他单列主键的，检查点一下就完成了。

展开

收起

小小鹿鹿鹿 2024-03-19 22:49:09 176 版权

阿里云 AI 助理回答

是的，Flink CDC 支持多列主键表。在 Flink 中，主键可以由一列或多列组成，用于唯一标识表中的记录。对于多列主键表，Flink 会将这些主键列组合成一个联合主键来处理。

例如，在分库分表场景中，Flink 可以通过 _db_name、_table_name 和原表主键列（如 id）形成联合主键，确保逻辑表的主键唯一性。

根据知识库资料，Flink 的检查点机制分为两个阶段：同步阶段和异步阶段。以下是对问题的详细分析：

同步阶段瓶颈：
- 同步阶段的关键在于 Barrier 的对齐时间。如果数据流中存在反压（Backpressure），Barrier 的对齐时间会显著增加，导致检查点超时。
- 多列主键表可能涉及更复杂的计算逻辑（如联合主键的处理），这可能导致算子之间的数据延迟增加，从而延长 Barrier 对齐时间。
异步阶段瓶颈：
- 异步阶段的主要任务是将本地状态数据上传到远程存储系统。如果表的状态数据量较大（如 1000 万条记录的表），上传时间会显著增加。
- 多列主键表的状态数据通常比单列主键表更复杂，因为需要维护更多的主键信息和索引，这可能导致状态数据量更大，上传时间更长。

结合用户描述的情况，以下是可能的原因：

状态数据量过大：
- 两列主键表的状态数据量可能显著大于单列主键表，尤其是在全量同步阶段或增量同步阶段发生频繁更新时。
- 状态数据量越大，异步阶段的上传时间越长，可能导致检查点超时。
反压问题：
- 如果作业存在反压，同步阶段的 Barrier 对齐时间会变长，进一步加剧检查点超时问题。
- 多列主键表可能涉及更复杂的计算逻辑，增加了反压的可能性。
并发度不足：
- 如果并发度设置较低，可能导致单个 Task Manager 的 CPU 资源不足，无法及时响应 Coordinator 的 RPC 请求，进而引发检查点超时。

优化同步阶段：
- 解决反压问题：
  - 检查作业是否存在反压，优先解决反压问题。可以通过 SQL 作业大状态导致反压的调优方法进行优化。
  - 如果反压是由下游系统（如 Hologres 或 ClickHouse）写入性能不足引起的，可以尝试增加下游系统的写入并发度或调整写入参数。
- 调整 Barrier 对齐策略：
  - 如果使用的是 Flink 1.13 或更高版本，可以启用 Unaligned Checkpoint，避免 Barrier 对齐带来的延迟。
优化异步阶段：
- 减少状态数据量：
  - 检查是否可以通过清理无用状态（如过期数据）来减少状态数据量。
  - 如果表中存在大量历史数据，可以考虑分批次同步，避免一次性加载过多数据。
- 提升状态上传性能：
  - 增加远程存储系统的带宽或 I/O 性能。
  - 调整 Flink 的状态后端配置（如 RocksDB 的写缓冲区大小）以提高状态上传效率。
调整并发度：
- 增加 Task Manager 的 CPU 资源，确保每个 Task Manager 有足够的资源处理数据流。
- 提高作业的并发度，分散单个 Task Manager 的负载。

简化主键逻辑：
- 如果业务允许，可以尝试将多列主键合并为单列主键（如通过哈希函数生成唯一标识），以减少主键的复杂性。
分库分表合并优化：
- 如果表是分库分表结构，可以通过正则表达式匹配逻辑表名，利用 Flink 的分库分表合并能力优化同步性能。
监控与诊断：
- 使用 Flink 的 Checkpoint UI 和指标（如 lastCheckpointDuration 和 lastCheckpointSize）监控检查点的耗时和状态数据量，定位具体瓶颈。