带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（2）-阿里云开发者社区

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（2）

2023-05-25 115

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（2）

《企业级云原生白皮书项目实战》——第五章大数据——5.3 实时计算Flink版——5.3.3 任务性能（1） https://developer.aliyun.com/article/1228340?groupCode=supportservice

5.3.1.3.1.2 任务反压影响及定位

一般任务的反压并不会直接影响实时任务，但是任务中反压的节点是处于一个高负载情况，会造成任务的延迟越来越大，如果是持续性的反压，意味着任务本身存在瓶颈，可能导致潜在的不稳定或者数据延迟，尤其是数据量较大的场景下，反压的影响主要体现在Flink中checkpoint生成上，主要影响两个方面：

•任务出现反压，上游数据流阻塞，会使数据管道中数据处理速度变慢，数据处理被阻塞也会导致 checkpoint barrier 流经整个数据管道的时长变长，因而 checkpoint 总体时间（End to End Duration）变长甚至是checkpoint失败。

•因为为保证 EOS（Exactly-Once-Semantics，准确一次），在对齐checkpoint场景中，算子接收多个管道输入，输入较快的管道数据state会被缓存起来，等待输入较慢的管道数据barrier对齐，这样由于输入较快管道数据没被处理，反压一直存在，较快的数据进入后一直积压可能导致OOM或者内存资源耗尽的不稳定问题。

这个影响对于数据量大的生产环境的作业来说是十分危险的，因为 checkpoint 是保证数据一致性的关键，checkpoint 时间变长有可能导致 checkpoint 超时失败，

而 state 大小同样可能拖慢 checkpoint 甚至导致 OOM 从而导致实时任务异常，而且不能能失败的checkpoint进行快速恢复。

定位造成实时任务反压问题的节点，主要有两种途径。

•通过Flink VVP 控制台的监控面板（如上一小节任务反压的现象中的截图）这种方式比较简单，可以通过控制台UI直接查看任务反压异常的节点，方便快速排查，如上一小节任务反压的现象中的反压截图

•Flink Task Metrics （Task Metrics 级别的监控）这种方式是通过task的监控指标来进行定位反压，提供了更加丰富的信息，比较复杂，适合用于监控系统，对应的指标可以参照官网的说明。

分析定位造成反压的原因，定位到反压节点后，分析造成原因的办法要结合出现反压时候实际现场情况来进行分析，主要的情况主要包含有如下的情况，包含数据倾斜，资源不足数据突增，代码性能问题，节点TM的GC问题，下游的数据源性能问题。

数据倾斜：通过 Web UI 各个 SubTask 的 Records Sent 和 Records Received 来确认，另外，还可以通过 Checkpoint detail 里不同的 SubTask 的 State Size 来判断是否数据倾斜。

代码问题：最有用的办法就是对 TaskManager 进行 CPU profifile，从中我们可以分析到 Task Thread 是否跑满一个 CPU 核：如果是的话要分析 CPU 主要花费在哪些函数里面，比如我们生产环境中就偶尔遇到卡在 Regex 的用户函数（ReDoS）；如果不是的话要看 Task Thread 阻塞在哪里，可能是用户函数本身有些同步的调用，可能是 checkpoint 或者 GC 等系统活动导致的暂时系统暂停。目前flflink版本提供了火焰图的来分析CPU的性能瓶颈。

GC 问题分析：包括 TaskManager JVM 各区内存不合理导致的频繁 Full GC 甚至失联。推荐可以通过给TaskManager 启用 G1 垃圾回收器来优化 GC，并加上 -XX-:+PrintGCDetails 来打印 GC 日志的方式来观察 GC 的问题。通过 GC 日志，分析出单个 Flink TaskManager 堆总大小、年轻代、老年代分配的内存空间，Full GC 后老年代剩余大小等。

数据突增资源不足：这种情况下场景一般是任务运行正常一段时间后，上游数据量出现增大的情况，导致消耗节点大量的CPU或者内存（特别是join节点）从而形成了反压，这种情况可以通过手动调大节点资源或者是使用自动调优

下游的数据源性能：在发现Sink 端写入性能较差，sink的上游节点出现反压情况，需要结合sink的数据端性能情况是否存在问题需要提升。

《企业级云原生白皮书项目实战》——第五章大数据——5.3 实时计算Flink版——5.3.3 任务性能（3）：https://developer.aliyun.com/article/1228337

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（2）

5.3.1.3.1.2 任务反压影响及定位

阿里云支持与服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（2）

5.3.1.3.1.2 任务反压影响及定位

阿里云支持与服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景