使用钉钉机器人监控DataWorks/消息队列Kakfa/实时计算Flink任务

简介: 我们写的数仓任务、Flink任务提交任务缺少对任务运行情况监控报警,这里可以使用钉钉自带的机器人实现钉钉群任务告警功能

1.概述

离线数仓任务提交之后,责任人就不太关注任务运行情况,导致多次数据产出延迟甚至任务出错无人管理;实时任务也经常因为延迟问题造客服投诉,缺少对实时任务延迟出错等监控;消息队列Kafka购买版本及集群配置不够导致消费或生产流量超阈值,Kafak集群宕机等问题;以上急需开发人员对上述问题进行监控,这里采用钉钉机器人推送报警信息,直接@相应负责人进行及时处理。

2.报警推送

1.自定义钉钉群机器人

选择一个钉钉群,在智能群助手创建自定义机器人,选择自定义关键词方式(这里的关键词指报警信息需包含该关键词才能触发改机器人发送报警),最后生成的Webhook地址一定要复制下来,方便后续使用。

这里分别创建4个群机器人:

DataWorks业务告警(关键词:DataWorks)

Flink集群告警(关键词:Flink、restart、emit_delay)

Kafka集群告警(关键词:kafkaconsumerdisk)

每日值班助手(关键词:DataWorks)

image.pngimage.png

image.png

image.png


2.DataWorks任务监控

1.基于智能监控配置

1.DataWorks运维大屏--智能监控--规则管理

image.png

2.新建自定义规则,输入规则名称,选择需要监控的任务节点,配置触发条件(超时、出错、未完成等),这里选择未完成,然后接着配置截止到几点未完成触发报警

image.png

3.报警方式选择钉钉群机器人,输入刚才创建的DataWokks业务告警Webhook地址,然后配置报警次数,确定即可。

image.png

4.当该任务在每日6点未运行结束,则钉钉会触发报警并推送至钉钉群

image.png

2.基于周期任务运维配置

1.在提交的周期任务里,选择需要设置报警的任务节点

image.png

2.选择出错报警,输入刚才创建的DataWokks业务告警Webhook地址。当任务出错时,则钉钉会触发报警并推送至钉钉群

image.png

3.Flink任务监控

1.在实时计算flink平台作业运维界面,对需要添加报警的任务选择添加告警规则

image.png

2.自定义规则,注意这里的规则名称需要和Flink集群监控机器人里的关键词保持一致

这里比如规则名称为:restart,设置阈值(1min重启次数),通知方式选择钉钉

image.png

3.联系人组我们需要创建,新建告警需要通知的联系人,将Flink集群监控Webhook地址输入

image.png

4.联系人创建完成后,添加联系人组,将需要通知的联系人加入联系人组,最后上述步骤2中选择这个联系人组

image.png

5.当任务出错或者延迟,则会触发钉钉机器人并通知群里的相应联系人

image.png

4.Kafka集群监控

1.消息队列kafka--监控报警,选择创建报警规则

image.png

2.选择创建报警规则,产品选择Kafka,然后点击添加规则

image.png

3.输入规则名称,这里选择实例的消息生产量,因为不同kafka集群配置消息生产量是不同的

image.png

4.阈值设置为100

image.png

5.配置完成后,选择对应的报警联系人,如果还没报警联系人,则需要创建并输入Kafka集群监控Webhook地址

image.png

image.png

6.当生产阈值超过100时,就会产生报警并推送顶顶群对应联系人

image.png

3.值班助手

当上述告警都配置完成时,负责人也不一定一定在场处理问题,所以可以利用DataWorks值班表,将每天需要值班运维的人员发送告警群里。

1.运维中心--智能监控--值班表,新建值班表

image.png

2.输入名称,以钉钉方式提醒,输入值班助手Webhook地址

image.png

3.针对日期表设置值班人员,则每日前一天会在群里通知,当天值班人员处理问题

image.png

image.png

这里通知方式有@所有人,和不@,如果想要@相应值班人员,则需要写代码实现,这个我们下篇文章具体讲述

4.总结

以上就是我们针对离线和实时任务的出错报警监控,当然也有其他设置方式,阿里云也提供了。当前的设置很方便我们运维人员处理问题了,后续会进行改进。

拜了个拜

目录
相关文章
|
1月前
|
传感器 人工智能 算法
适应多形态多任务,最强开源机器人学习系统八爪鱼诞生
【6月更文挑战第6天】【八爪鱼开源机器人学习系统】由加州大学伯克利分校等机构研发,适用于多形态多任务,已在arXiv上发表。系统基于transformer,预训练于800k机器人轨迹数据集,能快速适应新环境,支持单臂、双机械臂等。特点是多形态适应、多任务处理、快速微调及开源可复现。实验显示其在9个平台有效,但仍需改进传感器处理和语言指令理解。论文链接:https://arxiv.org/pdf/2405.12213
34 1
|
13天前
|
消息中间件 存储 监控
|
17天前
|
数据管理 机器人 BI
数据管理DMS产品使用合集之如何让报表自动更新推送到钉钉机器人
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
42 3
|
17天前
|
运维 机器人 开发者
使用阿里云百炼通过appflow模板,组合钉钉机器人搭建个人知识库评测与感想
尝试构建个人助手机制,用阿里云百炼+AppFlow+钉钉机器人,花费两午休时间解决配置问题。百炼appid复制时多出空格致错,文档未提及,耗时排查。应用创建时模型选项限于max, plus, turbo,性价比高的qwen-long未上线。期望尽快修复bug和上线新模型以降低成本。附故障排查截图。
57 1
|
1月前
|
监控 关系型数据库 MySQL
Flink实现实时异常登陆监控(两秒内多次登陆失败进行异常行为标记)
Flink实现实时异常登陆监控(两秒内多次登陆失败进行异常行为标记)
|
29天前
|
SQL 监控 Oracle
实时计算 Flink版产品使用问题之任务经常exception退出, 如何监控任务状态
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
SQL 存储 监控
实时计算 Flink版产品使用合集之Checkpoint监控和反压监控在哪里看
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
SQL DataWorks 监控
DataWorks操作报错合集之在点击DQC监控时,跳转到DQC页面出现报错,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何监控表的每日数据产出是否存在
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1月前
|
DataWorks 监控 API
DataWorks产品使用合集之在调用API创建质量监控规则中的校验器的ID可以在哪里找到
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章