Flink CDC中有没有遇到这个，检查点超时？

展开

收起

真的很搞笑 2023-10-18 14:17:20 192 版权

阿里云 AI 助理回答

在使用Flink CDC时，检查点超时是一个常见的问题，尤其是在数据量较大或网络带宽受限的情况下。根据知识库中的资料，以下是关于Flink CDC中检查点超时的详细分析和解决方案：

1. 检查点超时的原因

Flink的状态管理依赖于Chandy-Lamport算法，检查点的执行分为两个阶段： - 同步阶段：Barrier在算子间传递并对齐，此阶段的延迟与数据记录的延迟成正比。 - 异步阶段：算子将本地状态数据上传至远程持久化存储，上传时间与状态数据大小成正比。

如果检查点超时，可能的原因包括： - 同步阶段瓶颈：Barrier对齐时间过长，通常由反压（Backpressure）引起。 - 异步阶段瓶颈：状态数据过大导致上传时间过长。 - MySQL Binlog机制的影响：即使只读取部分表的数据，Binlog仍会记录整个实例的所有变更，可能导致带宽消耗过高，从而影响检查点的完成。

2. 诊断方法

2.1 使用Checkpoint UI

在运维中心 > 作业运维页面的“作业日志”页签下，通过“Checkpoints” > “Checkpoints 历史”观察不同级别的Checkpoint指标： - Sync Duration 和 Alignment Duration 较长：表明瓶颈在同步阶段，需优化同步过程。 - Async Duration 较长，Checkpointed Data Size 较大：表明瓶颈在异步阶段状态上传，需优化状态数据处理。

2.2 查看Checkpoint指标

在运维中心 > 作业运维页面的“监控告警”页签下，查看以下指标： - lastCheckpointDuration：历史Checkpoint的耗时。 - lastCheckpointSize：历史Checkpoint的大小。通过这些指标可以粗粒度分析检查点的性能瓶颈。

3. 解决方案

3.1 优化同步阶段

解决反压问题：如果作业存在反压，优先参考SQL作业大状态导致反压的调优原理与方法，以及DataStream作业大状态导致反压的调优原理与方法，解决反压问题以提高检查点效率。
使用Unaligned Checkpoint和Buffer Debloating：
- 说明：有效解决因等待数据对齐导致的超时问题，适用于各种规模的作业。
- 配置方法：在运行参数中启用Unaligned Checkpoint和Buffer Debloating功能。
- 注意事项：请参阅官方文档的限制部分。

3.2 优化异步阶段

增加并发资源：
- 说明：通过增加并发资源减少单个并发任务的状态量，加速异步快照处理。
- 配置方法：在资源配置或细粒度资源配置中增加并发。
- 注意事项：无。
使用原生快照：
- 说明：相比标准快照，原生快照生成速度更快，存储占用更小。
- 配置方法：对运行中的作业，创建原生格式的作业快照。
- 注意事项：原生快照无法保证跨大版本兼容。

3.3 针对MySQL CDC的特殊优化

调整Checkpoint间隔和失败容忍度：
- 如果表特别大，建议增加execution.checkpointing.interval和execution.checkpointing.tolerable-failed-checkpoints的值，避免在全量同步阶段由于Checkpoint超时导致Failover。
- 示例配置：
```
execution.checkpointing.interval: 10min
execution.checkpointing.tolerable-failed-checkpoints: 100
restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 2147483647
```
- 说明：execution.checkpointing.interval定义了Checkpoint的时间间隔，execution.checkpointing.tolerable-failed-checkpoints定义了允许的Checkpoint失败次数。
开启增量快照：
- 开启增量快照时，Postgres CDC连接器必须开启Checkpoint，并且Source表必须声明主键。增量快照可以显著减少全量同步阶段的Checkpoint压力。
复用CDC Source：
- 如果MySQL Binlog包含大量无关数据，可以通过复用CDC Source来减少带宽消耗。