请教一下大佬们,flink standalone模式,跑的任务挂了几天都不知道,有什么方法来监控j

请教一下大佬们,flink standalone模式,跑的任务挂了几天都不知道,有什么方法来监控job任务,在任务挂了的时候可以发送邮件或者钉钉告警?

展开
收起
真的很搞笑 2023-05-14 21:08:15 207 分享 版权
阿里云 AI 助理回答

在Flink Standalone模式下,为了监控任务并在任务挂掉时发送邮件或钉钉告警,您可以使用阿里云实时计算Flink版提供的监控告警功能。以下是详细的配置步骤和方法:


1. 使用云监控服务配置告警

如果您选择的是免费的云监控服务,可以通过以下步骤配置告警规则:

步骤 1:登录云监控控制台

  • 登录云监控控制台。
  • 在左侧导航栏中,选择报警服务 > 报警规则

步骤 2:创建报警规则

  • 单击创建报警规则,按照以下参数进行配置:
    • 产品:选择“实时计算Flink版”。
    • 资源范围:选择目标工作空间或作业。
    • 关联资源:选择具体的Flink作业。
    • 规则描述
    • 内容:选择Job Failed(作业失败)指标。
    • 生效时间:设置告警监控的生效时间(如全天生效或仅白天9点~18点生效)。
    • 告警频率:设置连续多少分钟内只发一次告警(支持1分钟~1440分钟)。
    • 通知方式:选择需要的通知方式,例如:
    • 邮件
    • 钉钉(需提前配置钉钉机器人)
    • 短信
    • Webhook
    • 电话(需确保接收人电话已完成验证)

步骤 3:添加通知对象

  • 通知对象参数位置,选择您需要通知的告警联系人。
  • 如果没有可用的通知对象,可以单击通知对象管理,添加联系人或钉钉机器人。

步骤 4:保存规则

  • 单击确定,保存告警规则。
  • 保存后的告警规则默认已启用,并出现在告警规则列表中。

2. 使用ARMS监控服务配置告警

如果您选择的是按量付费的ARMS监控服务,可以通过以下步骤配置告警规则:

步骤 1:接入ARMS监控服务

  • 登录Prometheus控制台。
  • 在左侧导航栏中,单击接入中心
  • 搜索“阿里云Flink服务监控”,单击对应的卡片。
  • 在弹出的对话框中,选择待接入的Flink工作空间,单击确定

步骤 2:查看监控大盘

  • 登录Prometheus控制台,在左侧导航栏中单击接入管理
  • 接入管理页面,单击已接入环境页签,选择目标环境名称。
  • 组件管理页签中,选择大盘,查看内置的Flink监控大盘。

步骤 3:创建告警规则

  • 在Prometheus控制台中,单击左侧导航栏的实例列表
  • 选择目标实例名称,进入实例详情页面。
  • 单击告警规则,再单击创建Prometheus告警规则
  • 配置以下参数:
    • 检测类型:选择静态阈值或自定义PromQL。
    • 筛选条件
    • 命名空间:填写项目空间名称。
    • 部署作业:填写目标作业的部署作业ID。
    • 通知方式:选择钉钉、邮件、短信等。

步骤 4:保存规则

  • 单击确定,保存告警规则。

3. 配置钉钉机器人告警

无论是云监控还是ARMS监控服务,都可以通过钉钉机器人发送告警通知:

步骤 1:创建钉钉机器人

  • 在钉钉群中,添加一个自定义机器人,并获取Webhook地址。

步骤 2:在告警配置中添加钉钉机器人

  • 在告警配置页面,选择DingTalk作为通知方式。
  • 通知对象管理中,选择钉钉机器人页签,单击新建钉钉机器人
  • 输入Webhook地址并保存。

4. 注意事项

  • 告警通知方式的有效性:如果选择电话通知,请确保接收人电话已完成验证,否则无法生效。
  • 监控服务的选择:根据您的需求选择合适的监控服务(云监控为免费,ARMS为按量付费),两者在功能上存在差异,具体对比请参见[云监控与ARMS告警服务功能对比]。
  • 告警规则的批量配置:如果需要对多个作业配置相同的告警规则,可以在云监控控制台中使用批量告警功能。

通过以上配置,您可以实现对Flink任务的实时监控,并在任务挂掉时及时收到邮件或钉钉告警通知。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

还有其他疑问?
咨询AI助理