Flink CDC每次快照执行完后面的checkpoint就这样了，怎么排查啊？

展开

收起

真的很搞笑 2023-10-31 18:20:46 120 版权

阿里云 AI 助理回答

根据您描述的问题“Flink CDC每次快照执行完后面的checkpoint出现问题”，结合知识库中的相关资料，以下是详细的排查和解决方法：

Flink的检查点（Checkpoint）分为同步阶段和异步阶段，需要分别分析这两个阶段的性能表现。

同步阶段：
- 查看Sync Duration和Alignment Duration是否较长。
- 如果较长，说明同步阶段存在瓶颈，可能由于Barrier对齐时间过长或数据延迟导致。
- 解决方法：优化数据流的反压问题，参考SQL作业大状态导致反压的调优原理与方法。
异步阶段：
- 查看Async Duration和Checkpointed Data Size是否较大。
- 如果较大，说明异步阶段的状态上传耗时较长，可能是由于状态数据量过大导致。
- 解决方法：优化状态存储配置，例如调整table.exec.state.ttl参数以减少状态数据量，或者升级到更高性能的状态后端（如GeminiStateBackend V4版本）。

如果使用的是Postgres CDC连接器，需确保以下配置正确：

增量快照功能：
- 确保开启了增量快照功能，并且Source表声明了主键。
- 如果未开启增量快照，全表扫描阶段不支持Checkpoint，可能导致超时失败。建议在其他配置中设置以下参数：
```
execution.checkpointing.interval: 10min
execution.checkpointing.tolerable-failed-checkpoints: 100
restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 2147483647
```
- 说明：execution.checkpointing.tolerable-failed-checkpoints的值应根据表大小适当调整，避免因Checkpoint超时导致Failover。
Replication Slot管理：
- 及时清理无用的Replication Slot，避免磁盘空间浪费。

通过Flink运维中心的Checkpoint历史记录，定位具体问题：

登录实时计算控制台，进入目标作业的运维中心 > 作业运维页面。
在作业日志 > Checkpoints > Checkpoints 历史中，查看不同级别（作业、算子、单并发）的Checkpoint指标。
- 关注End to End Duration列，确认慢Checkpoint对应的ID。
- 展开慢Checkpoint对应的Operators节点，查看每个Task的情况。
定位慢Checkpoint对应的Task节点ID，在运行Task Managers页签查看其日志信息。

如果Checkpoint仍然存在问题，需进一步排查网络和资源相关问题：

网络连通性：
- 检查上下游组件的网络连接是否正常，是否存在Timeout类报错。
- 如果有Timeout报错，排查相应组件的网络连接问题。
资源分配：
- 检查当前资源队列是否不足，可能导致Checkpoint失败。
- 报错示例：ERROR：exceeded quota: resourcequota
- 解决方法：增加资源队列配额或降低作业启动资源。

如果上述方法无法解决问题，需深入分析日志信息：

Job Manager异常：
- 在作业日志 > 异常信息页签查看Job Manager异常信息。
- 如果Job Manager未启动成功，需在启动日志中查找原因。
失效Task Managers日志：
- 在作业日志 > 运行日志 > 失效Task Managers页签查看归档日志。
- 注意：只有开启了日志归档才能查看失效Task Managers日志。