Checkpoint 慢之作业存在反压或者数据倾斜如何解决?
我们知道 task 仅在接受到所有的 barrier 之后才会进行 snapshot,如果作业存 在反压,或者有数据倾斜,则会导致全部的 channel 或者某些 channel 的 barrier 发送慢,从而整体影响 Checkpoint 的时间,这两个可以通过如下的页面进行检查: 上图中我们选择了一个 task,查看所有 subtask 的反压情况,发现都是 high, 表示反压情况严重,这种情况下会导致下游接收 barrier 比较晚。 上图中我们选择其中一个 operator,点击所有的 subtask,然后按照 Records Received/Bytes Received/TPS 从大到小进行排序,能看到前面几个 subtask 会 比其他的 subtask 要处理的数据多。 如果存在反压或者数据倾斜的情况,我们需要首先解决反压或者数据倾斜问题之 后,再查看 Checkpoint 的时间是否符合预期。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。