带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（7）-阿里云开发者社区

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（7）

2023-05-25 245

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（7）

《企业级云原生白皮书项目实战》——第五章大数据——5.3 实时计算Flink版——5.3.3 任务性能（6）： https://developer.aliyun.com/article/1228334?groupCode=supportservice

5.3.3.3.3 checkpoint典型案例

Flink作业出现Checkpoint失败情况，可以通过flflink的VVP控制台上——作业快照查到历史checkpoint的生产情况，如果可以看到该作业checkpoint一直在失败中。

点击具体的checkpoint（612）查看这个耗时1小时37分钟checkpoint生成过程发现主要的耗时是在source读取数据的一个节点上，耗时一个多小时但是 Acknowledged进度才92%，最终导致了checkpoint的失败。

具体分析任务情况，通过任务的实例负载监控，可以看到其中的节点，12个并发都是存在反压的情况，导致上游的source节点读取数据异常，进而导致checkpoint生产耗时长而且失败，此时问题点就比较明确，任务的压力大负载高导致节点反压情况进而导致任务checkpoint失败，对应的解决方案是先将任务的反压情况进行解决，任务负载正常。

整体分析任务看整体给的并发是12个，但是TM的资源指给了一个1CPU 4G内存，任务的sink节点Busy严重负载大，导致上游的join节点出现反压，所以针对sink节点使用专家模式单独增加资源，提升到2CPU 4G内存的资源量，对于任务进行重启后观察看，任务运行负载较小，checkpoint正常生成。

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（7）

5.3.3.3.3 checkpoint典型案例

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（7）

5.3.3.3.3 checkpoint典型案例

热门文章

最新文章

相关课程

相关电子书