文档备案控制台

开发者社区问答正文

flink作业通过grafana监控，若想发出报警该如何选择指标的问题

Hi，请教大家一个问题：

目前使用grafana监控flink的作业，想实现一个任务挂掉就报警的功能，初步想法是：监控checkpoint size的指标，一旦这个指标为0，就认为任务挂掉，但实际操作后，发现了两个问题：

① 如果kill掉任务，grafana上的flink所有指标都会一直保持最后接收到的值不变； ② 如果cancel掉任务，grafana上的flink所有指标都会突然中断；

所以，我上面说的想法永远都不会出发告警，因为这个checkpoint size的指标在任务挂掉也不会归为0值；

我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime，但是这样报警并不优雅，在任务刚启动时会有误报，因为任务刚启动时，一分钟前是没有数据的。

所以现在很疑惑，请教一下大家如果用grafana监控flink作业的，该选用什么样的指标和用什么规则，可以优雅的报警呢？*来自志愿者整理的flink邮件归档

展开

收起

毛毛虫雨 2021-12-08 12:14:06 1848 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

全云坠旺的仔

对的是我！

我们当前的实现是，每分钟调用yarn的rest api 获取作业状态，和实时计算平台上的作业状态对比，如果挂掉就电话报警，同时平台上作业状态修改为运行异常。 *来自志愿者整理的flink邮件归档

2021-12-08 17:04:35

赞同展开评论

问答分类：

监控流计算可观测可视化 Grafana 版实时计算 Flink版

问答标签：

实时计算 Flink版作业可观测可视化 Grafana 版监控实时计算 Flink版指标可观测可视化 Grafana 版指标实时计算 Flink版监控报警

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce集群的Flink指标详解

133

1

0

Flink作业如何选择AllowNonRestoredState

153

1

0

我们在用flink sql 做实时指标计算时，insert into语句能否动态修改？

219

0

0

阿里云Grafana仪表盘看板是否支持多机房Prometheus相同指标数据汇总在一起进行显示

383

2

0

如果我想配置flink任务的监控指标通过钉钉或者邮件外发，哪些指标比较具有参考价值呢？

111

1

0

在Flink CDC中，无锁的增量快照，等指标没输入数据stop job，这个咋实现？配置参数吗？

114

1

0

在Flink CDC中，我使用flinkcdc监控sqlserver，这是什么呀？

207

0

0

在银行业务中，通过Flink分析的业务流程和指标如何优化业务流程？

106

1

0

Flink为银行流程指标计算带来了哪些具体的收益？

132

1

0

在Flink CDC中,那你打的datastream？指标数据正常吗？

103

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

OpenClaw Gateway Token 获取？

阿里云千问Token价格怎么收费？

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

相关文章

火爆全网的AI智能体“龙虾”(OpenClaw)是什么？它能做什么？

AI 应用开发全流程

一文读懂机床数据采集：数控系统适配、核心参数与落地实践

注塑机数据采集如何实现与 MES 系统的双向数据闭环？

龙虾AI怎么养？OpenClaw一键部署，两步解锁专属龙虾AI助理！

还有其他疑问?