请教下,flink on yarn中有用pushgateway获取监控指标的吗?pushgateway中的过期数据是怎么处理的呢?作业重新启动之后,之前启动的监控指标还在pushgateway中,不能自动清除
在Flink on Yarn中,确实可以使用Prometheus的Pushgateway来获取监控指标。关于您提到的过期数据问题,Pushgateway本身不会自动清除旧的指标数据。如果作业重新启动后,之前的监控指标仍留在Pushgateway中,这可能是因为重启后的作业仍然使用相同的Job ID,导致新的指标数据与旧的指标数据混淆在一起。
为了解决这个问题,您可以考虑以下方案:
通过这些方法,您可以更有效地监控Flink on Yarn作业,确保其稳定、高效的运行。
在Flink on Yarn环境中,可以使用Prometheus的Pushgateway来获取监控指标。关于过期数据的处理,Pushgateway采用了分组管理(Group)的方式,每个组由job name和一组描述job的标签唯一标识。数据都存储在"/metrics"这个endpoint下,不同的组的metric_name不能冲突。
为了处理过期的数据,您可以使用TTL(Time To Live)或其他保留设置,如按大小或按时间来删除数据。此外,Web UI提供了基本的查看和删除组的功能,也可以手动删除不再使用的数据。如果作业重新启动后,之前启动的监控指标仍然在Pushgateway中,可以考虑在程序中添加逻辑来清除旧的指标数据。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。