阿里云实时计算 Flink 版作为企业级高性能 Serverless 实时大数据处理系统,其引擎拥有 SQL 算子深度优化、大规模调度优化、高性能状态存储引擎等众多特性。在这背后是众多需要被观测的指标,保障作业正常运作,这给运维工程师、研发工程师带来了巨大挑战。那么,构建 Flink 作业之后,我们需要关注不同组成部分的哪些指标呢?
Flink 指标观测体系主要由 Overview、Checkpoint、CEP、IO、Watermark、JM 资源、TM 资源等不同指标部分组成,这些指标可以帮助我们判断 Source 当前的工作状况、Flink 当前的处理能力、数据在外部系统中的滞留情况等不同场景。
在使用实时计算 Flink 版的过程中,我们可以开启预集成的可观测监控 Prometheus 监控,自动完成指标上报与监控,无需以 Pushgatway 方式对现有 Flink 配置进行修改并自建相关监控平台。
一、在实时计算 Flink 控制台的概览页(https://realtime-compute.console.aliyun.com/?spm=5176.12818093.top-nav.4.352a16d0mMxcsw)
找到我们刚刚创建的试用工作空间,点击对应工作空间后面的「更多」,选择「监控指标配置」。跳转到可观测监控 Prometheus 版控制台。
二、跳转到可观测监控 Prometheus 版控制台后,点击左侧菜单的「大盘列表」。我们可以看到一共两个大盘,一个为 Flink 监控大盘,一个为Flink Session Cluster 监控大盘。点击「对应的大盘名称」如 Flink,即可查看对应大盘。
三、「如果后续不再使用 Flink 后,可以卸载 Prometheus 的对应实例」在 ARMS 控制台(https://arms.console.aliyun.com/?spm=5176.8140086.J_5253785160.6.73bdbe45OreHHp#/home)
在左侧菜单中选择「Prometheus 监控」-「Prometheus 实例列表」。在右侧选择对应的 Flink 实例,并点击「操作 - 卸载」,点击确认弹窗上的「确认」,完成对应 Prometheus for Flink 实例的卸载。
更多内容
活动推荐
阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc