开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Checkpoint 慢之作业存在反压或者数据倾斜如何解决?

Checkpoint 慢之作业存在反压或者数据倾斜如何解决?

展开
收起
Lee_tianbai 2020-12-30 11:29:59 899 0
1 条回答
写回答
取消 提交回答
  • 我们知道 task 仅在接受到所有的 barrier 之后才会进行 snapshot,如果作业存 在反压,或者有数据倾斜,则会导致全部的 channel 或者某些 channel 的 barrier 发送慢,从而整体影响 Checkpoint 的时间,这两个可以通过如下的页面进行检查: image.png 上图中我们选择了一个 task,查看所有 subtask 的反压情况,发现都是 high, 表示反压情况严重,这种情况下会导致下游接收 barrier 比较晚。 image.png 上图中我们选择其中一个 operator,点击所有的 subtask,然后按照 Records Received/Bytes Received/TPS 从大到小进行排序,能看到前面几个 subtask 会 比其他的 subtask 要处理的数据多。 如果存在反压或者数据倾斜的情况,我们需要首先解决反压或者数据倾斜问题之 后,再查看 Checkpoint 的时间是否符合预期。

    2020-12-30 16:42:40
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载