麻烦问下Flink有遇到checkpoint卡在某个算子不往下走的问题吗？

麻烦问下Flink有遇到checkpoint卡在某个算子不往下走的问题吗？这个卡到最后就超时了

展开

收起

真的很搞笑 2024-04-22 19:04:55 326 版权

阿里云 AI 助理回答

在Flink作业中，如果遇到Checkpoint卡在某个算子不往下走的问题，并最终导致超时，通常是由于同步阶段或异步阶段的性能瓶颈引起的。以下是问题的详细分析和解决方法：

1. 问题原因分析

根据知识库资料，Flink的Checkpoint分为两个主要阶段： - 同步阶段：Barrier在算子间传递并对齐，延迟与数据记录的延迟成正比。 - 异步阶段：算子将本地状态数据上传至远程持久化存储，上传时间与状态数据大小成正比。

可能的原因

同步阶段瓶颈：
- 如果Sync Duration或Alignment Duration较长，说明Barrier对齐时间过长，可能是由于反压、网络延迟或数据倾斜导致的。
- 反压会导致Barrier无法及时对齐，从而阻塞Checkpoint的推进。
异步阶段瓶颈：
- 如果Async Duration较长且Checkpointed Data Size较大，说明状态数据量过大，上传到远程存储的时间过长。
- 状态数据过大可能是由于大状态作业或未优化的状态管理策略导致的。
其他潜在问题：
- 某些算子可能存在性能瓶颈，例如Postgres CDC连接器在全表扫描阶段未正确配置Checkpoint参数。
- 网络连通性问题可能导致Checkpoint数据上传失败或延迟。

2. 诊断方法

为了定位问题，可以按照以下步骤进行诊断：

2.1 使用Checkpoint UI

在运维中心 > 作业运维页面的Checkpoints历史中，观察不同级别的Checkpoint指标： - Sync Duration 和 Alignment Duration：如果这两个值较长，说明瓶颈在同步阶段。 - Async Duration 和 Checkpointed Data Size：如果这两个值较大，说明瓶颈在异步阶段。

2.2 查看Checkpoint指标

在监控告警页签中查看以下指标： - lastCheckpointDuration：最近一个Checkpoint的持续时间。 - lastCheckpointSize：最近一个Checkpoint的大小。

2.3 查看运行异常日志

通过以下方式排查具体算子的异常： - Job Manager异常：查看是否有Failover或其他异常信息。 - 慢Checkpoint对应的Task Managers日志：定位慢Checkpoint关联的TM日志，分析具体原因。

3. 调优策略

根据问题的具体原因，可以采取以下调优措施：

3.1 解决同步阶段瓶颈

启用Unaligned Checkpoint：
- Unaligned Checkpoint可以跳过Barrier对齐，避免因等待对齐而导致的超时问题。
- 配置方法：在运行参数中启用Unaligned Checkpoint。
- 注意事项：请参考官方文档中的限制部分。
优化反压问题：
- 如果存在反压，优先解决反压问题。可以通过SQL作业或DataStream作业的大状态调优方法进行优化。
调整Checkpoint间隔：
- 增大execution.checkpointing.interval，减少Checkpoint频率，降低同步阶段的压力。

3.2 解决异步阶段瓶颈

增加并发资源：
- 增加并发任务数，减少单个任务的状态量，从而加速异步快照的处理流程。
- 配置方法：在资源配置或细粒度资源配置中增加并发。
使用原生快照：
- 原生快照生成速度更快，存储占用更小，适合异步阶段超时的场景。
- 注意事项：原生快照无法保证跨大版本兼容。
优化状态管理：
- 启用state.backend.latency-track.keyed-state-enabled，监控状态访问延迟，优化状态清理和访问性能。

3.3 其他优化措施

检查网络连通性：
- 确保Flink作业与远程存储之间的网络连通性良好。
- 如果需要跨VPC访问或公网访问，请配置NAT网关或白名单。
调整Postgres CDC连接器参数：
- 如果使用Postgres CDC连接器，确保在全表扫描阶段正确配置Checkpoint参数，例如增大execution.checkpointing.tolerable-failed-checkpoints。