Checkpoint 慢之作业存在反压或者数据倾斜如何解决?

Checkpoint 慢之作业存在反压或者数据倾斜如何解决?

展开
收起
Lee_tianbai 2020-12-30 11:29:59 913 分享
分享
版权
举报
1 条回答
写回答
取消 提交回答
  • 我们知道 task 仅在接受到所有的 barrier 之后才会进行 snapshot,如果作业存 在反压,或者有数据倾斜,则会导致全部的 channel 或者某些 channel 的 barrier 发送慢,从而整体影响 Checkpoint 的时间,这两个可以通过如下的页面进行检查: image.png 上图中我们选择了一个 task,查看所有 subtask 的反压情况,发现都是 high, 表示反压情况严重,这种情况下会导致下游接收 barrier 比较晚。 image.png 上图中我们选择其中一个 operator,点击所有的 subtask,然后按照 Records Received/Bytes Received/TPS 从大到小进行排序,能看到前面几个 subtask 会 比其他的 subtask 要处理的数据多。 如果存在反压或者数据倾斜的情况,我们需要首先解决反压或者数据倾斜问题之 后,再查看 Checkpoint 的时间是否符合预期。

    2020-12-30 16:42:40 举报
    赞同 评论

    评论

    全部评论 (0)

    登录后可评论

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

收录在圈子:
实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商业化品牌,完全兼容开源 Flink API,提供丰富的企业级增值功能。
还有其他疑问?
咨询AI助理
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等