Flink CDC好像还把task 给搞挂了？

Flink CDC好像还把task 给搞挂了？org.apache.flink.util.flinkruntimeexception: Exceeded checkpoint tolerable failure threshold. The latest checkpoint failed due to Checkpoint expired before completing., view the Checkpoint History tab or the Job Manager log to find out why continuous checkpoints failed.

展开

收起

真的很搞笑 2023-10-31 18:42:28 196 版权

阿里云 AI 助理回答

根据您提供的错误信息 org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. The latest checkpoint failed due to Checkpoint expired before completing.，以下是问题的详细分析和解决方案：

问题分析

报错原因
该错误表明Flink作业的Checkpoint失败次数超过了容忍阈值（execution.checkpointing.tolerable-failed-checkpoints），导致作业触发Failover。具体原因是连续多次Checkpoint未能在规定时间内完成，最终超时。
可能的根本原因
- Checkpoint超时：Checkpoint的执行时间过长，可能由于数据量过大、网络延迟或Sink端（如Kafka）处理能力不足。
- 资源不足：TaskManager或JobManager的资源分配不足，导致Checkpoint无法及时完成。
- CDC相关问题：Flink CDC在读取数据库变更日志时，可能因Binlog格式、Replication Slot管理不当或全量同步阶段的压力导致Checkpoint失败。
- 配置不合理：Checkpoint的时间间隔（execution.checkpointing.interval）或超时时间（execution.checkpointing.timeout）设置不合理。

解决方案

1. 调整Checkpoint相关参数

通过优化Checkpoint配置，减少失败的可能性： - 增加Checkpoint容忍失败次数
设置execution.checkpointing.tolerable-failed-checkpoints参数，允许更多的Checkpoint失败次数。例如：

execution.checkpointing.tolerable-failed-checkpoints: 10

注意：该值应根据实际业务需求调整，避免过于宽松导致作业长时间处于不稳定状态。

延长Checkpoint超时时间
增加execution.checkpointing.timeout参数的值，确保Checkpoint有足够的时间完成。例如：
```
execution.checkpointing.timeout: 10min
```
调整Checkpoint时间间隔
如果数据量较大，建议适当延长Checkpoint的时间间隔。例如：
```
execution.checkpointing.interval: 5min
```

2. 检查Flink CDC相关配置

Flink CDC可能导致Checkpoint失败的原因包括全量同步阶段的压力或增量阶段的Binlog读取问题： - 全量同步阶段
如果作业处于全量同步阶段，建议关闭增量快照功能，并调整Checkpoint相关参数以避免超时。例如：

execution.checkpointing.tolerable-failed-checkpoints: 100
restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 2147483647

重要提示：全量同步阶段不支持Checkpoint，因此需要合理配置上述参数以避免Failover。

增量同步阶段
确保MySQL或Postgres的Binlog格式为ROW模式，并检查Replication Slot是否被正确管理。如果Slot未及时清理，可能导致磁盘空间耗尽或Checkpoint失败。可以通过以下SQL手动清理Slot：
```
SELECT pg_drop_replication_slot('rep_slot');
```
或者在Postgres Source配置中添加自动清理参数：
```
'debezium.slot.drop.on.stop' = 'true'
```

3. 优化资源分配

增加TaskManager资源
如果TaskManager的内存或CPU资源不足，可能导致Checkpoint处理缓慢。建议增加TaskManager的并行度或资源分配。
优化Kafka Sink配置
如果使用Kafka作为Sink，确保Kafka Producer池大小足够大，避免因并发Checkpoint过多导致失败。例如：
```
kafka.producers.pool.size: 10
```

4. 定位慢Checkpoint

通过以下步骤定位慢Checkpoint的具体原因： 1. 登录实时计算控制台，进入目标作业的运维页面。 2. 在作业日志页签中，选择Checkpoints页签，查看Checkpoint历史记录。 3. 查看End to End Duration列的值，确认慢Checkpoint对应的ID。 4. 展开慢Checkpoint对应的Operators节点，定位具体的Task。 5. 查看慢Checkpoint对应的TaskManager日志，分析具体原因。

重要提醒

生产环境注意事项
不要将task.cancellation.timeout参数设置为0，这仅适用于调试场景。生产环境中应通过优化代码逻辑解决Task退出阻塞的问题。
定期清理Replication Slot
如果使用Postgres CDC，务必定期管理Replication Slot，避免磁盘空间浪费或Checkpoint失败。
监控关键指标
使用监控告警页面的currentEmitEventTimeLag指标判断CDC作业是否已完成全量同步。如果该指标大于0，说明已进入增量阶段。