在Flink Standalone模式下,为了监控任务并在任务挂掉时发送邮件或钉钉告警,您可以使用阿里云实时计算Flink版提供的监控告警功能。以下是详细的配置步骤和方法:
1. 使用云监控服务配置告警
如果您选择的是免费的云监控服务,可以通过以下步骤配置告警规则:
步骤 1:登录云监控控制台
- 登录云监控控制台。
- 在左侧导航栏中,选择报警服务 > 报警规则。
步骤 2:创建报警规则
- 单击创建报警规则,按照以下参数进行配置:
- 产品:选择“实时计算Flink版”。
- 资源范围:选择目标工作空间或作业。
- 关联资源:选择具体的Flink作业。
- 规则描述:
- 内容:选择
Job Failed(作业失败)指标。
- 生效时间:设置告警监控的生效时间(如全天生效或仅白天9点~18点生效)。
- 告警频率:设置连续多少分钟内只发一次告警(支持1分钟~1440分钟)。
- 通知方式:选择需要的通知方式,例如:
- 邮件
- 钉钉(需提前配置钉钉机器人)
- 短信
- Webhook
- 电话(需确保接收人电话已完成验证)
步骤 3:添加通知对象
- 在通知对象参数位置,选择您需要通知的告警联系人。
- 如果没有可用的通知对象,可以单击通知对象管理,添加联系人或钉钉机器人。
步骤 4:保存规则
- 单击确定,保存告警规则。
- 保存后的告警规则默认已启用,并出现在告警规则列表中。
2. 使用ARMS监控服务配置告警
如果您选择的是按量付费的ARMS监控服务,可以通过以下步骤配置告警规则:
步骤 1:接入ARMS监控服务
- 登录Prometheus控制台。
- 在左侧导航栏中,单击接入中心。
- 搜索“阿里云Flink服务监控”,单击对应的卡片。
- 在弹出的对话框中,选择待接入的Flink工作空间,单击确定。
步骤 2:查看监控大盘
- 登录Prometheus控制台,在左侧导航栏中单击接入管理。
- 在接入管理页面,单击已接入环境页签,选择目标环境名称。
- 在组件管理页签中,选择大盘,查看内置的Flink监控大盘。
步骤 3:创建告警规则
- 在Prometheus控制台中,单击左侧导航栏的实例列表。
- 选择目标实例名称,进入实例详情页面。
- 单击告警规则,再单击创建Prometheus告警规则。
- 配置以下参数:
- 检测类型:选择静态阈值或自定义PromQL。
- 筛选条件:
- 命名空间:填写项目空间名称。
- 部署作业:填写目标作业的部署作业ID。
- 通知方式:选择钉钉、邮件、短信等。
步骤 4:保存规则
3. 配置钉钉机器人告警
无论是云监控还是ARMS监控服务,都可以通过钉钉机器人发送告警通知:
步骤 1:创建钉钉机器人
- 在钉钉群中,添加一个自定义机器人,并获取Webhook地址。
步骤 2:在告警配置中添加钉钉机器人
- 在告警配置页面,选择DingTalk作为通知方式。
- 在通知对象管理中,选择钉钉机器人页签,单击新建钉钉机器人。
- 输入Webhook地址并保存。
4. 注意事项
- 告警通知方式的有效性:如果选择电话通知,请确保接收人电话已完成验证,否则无法生效。
- 监控服务的选择:根据您的需求选择合适的监控服务(云监控为免费,ARMS为按量付费),两者在功能上存在差异,具体对比请参见[云监控与ARMS告警服务功能对比]。
- 告警规则的批量配置:如果需要对多个作业配置相同的告警规则,可以在云监控控制台中使用批量告警功能。
通过以上配置,您可以实现对Flink任务的实时监控,并在任务挂掉时及时收到邮件或钉钉告警通知。