开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

请教下,flink on yarn中有用pushgateway获取监控指标的吗?

请教下,flink on yarn中有用pushgateway获取监控指标的吗?pushgateway中的过期数据是怎么处理的呢?作业重新启动之后,之前启动的监控指标还在pushgateway中,不能自动清除

展开
收起
真的很搞笑 2023-12-03 20:29:37 217 0
2 条回答
写回答
取消 提交回答
  • 在Flink on Yarn中,确实可以使用Prometheus的Pushgateway来获取监控指标。关于您提到的过期数据问题,Pushgateway本身不会自动清除旧的指标数据。如果作业重新启动后,之前的监控指标仍留在Pushgateway中,这可能是因为重启后的作业仍然使用相同的Job ID,导致新的指标数据与旧的指标数据混淆在一起。

    为了解决这个问题,您可以考虑以下方案:

    1. 为每个作业生成唯一的Job ID,以确保每个作业的监控指标不会相互干扰。
    2. 定期清理不再使用的指标数据,以防止Pushgateway因存储过多的数据而崩溃。虽然手动删除这些数据可能是一项艰巨的任务,但您可以根据需要设置TTL或其他保留设置来自动管理数据生命周期。
    3. 结合使用Prometheus和Grafana等工具,可以更好地可视化和分析Flink任务的运行状况。

    通过这些方法,您可以更有效地监控Flink on Yarn作业,确保其稳定、高效的运行。

    2023-12-04 16:29:50
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在Flink on Yarn环境中,可以使用Prometheus的Pushgateway来获取监控指标。关于过期数据的处理,Pushgateway采用了分组管理(Group)的方式,每个组由job name和一组描述job的标签唯一标识。数据都存储在"/metrics"这个endpoint下,不同的组的metric_name不能冲突。

    为了处理过期的数据,您可以使用TTL(Time To Live)或其他保留设置,如按大小或按时间来删除数据。此外,Web UI提供了基本的查看和删除组的功能,也可以手动删除不再使用的数据。如果作业重新启动后,之前启动的监控指标仍然在Pushgateway中,可以考虑在程序中添加逻辑来清除旧的指标数据。

    2023-12-03 21:43:21
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载