开发者社区> 问答> 正文

关于flink任务挂掉报警的监控指标选择

请问各位大佬,我基于grafana+prometheus构建的Flink监控,现在想实现flink任务挂掉后,grafana就发出报警的功能,但是目前不知道该用什么指标去监控,我之前想监控flink_jobmanager_job_uptime这个指标,设置的监控规则是:max_over_time(flink_jobmanager_job_uptime[1m])

min_over_time(flink_jobmanager_job_uptime[1m])的差小于等于0就报警,但是任务刚启动,会有误报,想请教下有没有更好的办法*来自志愿者整理的flink邮件归档

展开
收起
小阿怪 2021-12-07 10:53:01 1691 0
1 条回答
写回答
取消 提交回答
  • 可以配置任务重启告警, flink任务挂掉之后会自动尝试重启 如果是固定任务数量的话, 还可以配置slot数量告警*来自志愿者整理的flink邮件归档

    2021-12-07 11:28:48
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载