文档备案控制台

开发者社区云原生云消息队列文章正文

使用钉钉机器人监控DataWorks/消息队列Kakfa/实时计算Flink任务

2022-09-20 1536

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们写的数仓任务、Flink任务提交任务缺少对任务运行情况监控报警，这里可以使用钉钉自带的机器人实现钉钉群任务告警功能

1.概述

离线数仓任务提交之后，责任人就不太关注任务运行情况，导致多次数据产出延迟甚至任务出错无人管理；实时任务也经常因为延迟问题造客服投诉，缺少对实时任务延迟出错等监控；消息队列Kafka购买版本及集群配置不够导致消费或生产流量超阈值，Kafak集群宕机等问题；以上急需开发人员对上述问题进行监控，这里采用钉钉机器人推送报警信息，直接@相应负责人进行及时处理。

2.报警推送

1.自定义钉钉群机器人

选择一个钉钉群，在智能群助手创建自定义机器人，选择自定义关键词方式(这里的关键词指报警信息需包含该关键词才能触发改机器人发送报警)，最后生成的Webhook地址一定要复制下来，方便后续使用。

这里分别创建4个群机器人：

DataWorks业务告警(关键词：DataWorks)

Flink集群告警(关键词：Flink、restart、emit_delay)

Kafka集群告警(关键词：kafka、consumer、disk)

每日值班助手(关键词：DataWorks)

2.DataWorks任务监控

1.基于智能监控配置

1.DataWorks运维大屏--智能监控--规则管理

2.新建自定义规则，输入规则名称，选择需要监控的任务节点，配置触发条件(超时、出错、未完成等)，这里选择未完成，然后接着配置截止到几点未完成触发报警

3.报警方式选择钉钉群机器人，输入刚才创建的DataWokks业务告警Webhook地址，然后配置报警次数，确定即可。

4.当该任务在每日6点未运行结束，则钉钉会触发报警并推送至钉钉群

2.基于周期任务运维配置

1.在提交的周期任务里，选择需要设置报警的任务节点

2.选择出错报警，输入刚才创建的DataWokks业务告警Webhook地址。当任务出错时，则钉钉会触发报警并推送至钉钉群

3.Flink任务监控

1.在实时计算flink平台作业运维界面，对需要添加报警的任务选择添加告警规则

2.自定义规则，注意这里的规则名称需要和Flink集群监控机器人里的关键词保持一致

这里比如规则名称为:restart，设置阈值(1min重启次数)，通知方式选择钉钉

3.联系人组我们需要创建，新建告警需要通知的联系人，将Flink集群监控Webhook地址输入

4.联系人创建完成后，添加联系人组，将需要通知的联系人加入联系人组，最后上述步骤2中选择这个联系人组

5.当任务出错或者延迟，则会触发钉钉机器人并通知群里的相应联系人

4.Kafka集群监控

1.消息队列kafka--监控报警，选择创建报警规则

2.选择创建报警规则，产品选择Kafka，然后点击添加规则

3.输入规则名称，这里选择实例的消息生产量，因为不同kafka集群配置消息生产量是不同的

4.阈值设置为100

5.配置完成后，选择对应的报警联系人，如果还没报警联系人，则需要创建并输入Kafka集群监控Webhook地址

6.当生产阈值超过100时，就会产生报警并推送顶顶群对应联系人

3.值班助手

当上述告警都配置完成时，负责人也不一定一定在场处理问题，所以可以利用DataWorks值班表，将每天需要值班运维的人员发送告警群里。

1.运维中心--智能监控--值班表，新建值班表

2.输入名称，以钉钉方式提醒，输入值班助手Webhook地址

3.针对日期表设置值班人员，则每日前一天会在群里通知，当天值班人员处理问题

这里通知方式有@所有人，和不@，如果想要@相应值班人员，则需要写代码实现，这个我们下篇文章具体讲述

4.总结

以上就是我们针对离线和实时任务的出错报警监控，当然也有其他设置方式，阿里云也提供了。当前的设置很方便我们运维人员处理问题了，后续会进行改进。

拜了个拜

文章标签：

云消息队列 Kafka 版

大数据开发治理平台 DataWorks

实时计算 Flink版

消息中间件

流计算

监控

运维

机器人

Kafka

DataWorks

关键词：

钉钉机器人

实时计算 Flink版任务

机器人钉钉

大数据开发治理平台 DataWorks任务

机器人任务

兮辰

目录

相关文章

SOFAStack社区-棠棠

|

11月前

|

SQL 运维 Java

蚂蚁 Flink 实时计算编译任务 Koupleless 架构改造

本文介绍了对Flink实时计算编译任务的Koupleless架构改造。为解决进程模型带来的响应慢、资源消耗大等问题，团队将进程模型改为线程模型，并借助Koupleless的类加载隔离能力实现版本和包的隔离。通过动态装配Plugin及其Classpath，以及Biz运行时仅对依赖Plugin可见的设计，大幅优化了编译任务的性能。结果表明，新架构使编译耗时降低50%，吞吐量提升5倍以上。

SOFAStack社区-棠棠

412 11 12

蚂蚁 Flink 实时计算编译任务 Koupleless 架构改造

技术小达人

|

SQL 弹性计算 DataWorks

Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践

Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践

技术小达人

606 6 6

申某某

|

运维监控 DataWorks

DataWorks 稳定性保障全解析：深入监控与资源调配

DataWorks 的稳定性保障体系涵盖精细监控与资源调配，确保企业数据业务高效、稳定运行。监控模块包括资源、任务和质量监控，及时预警并处理异常；资源调配策略则针对集成、调度、数据服务及计算资源进行科学配置，保障数据同步、任务优先级和高并发需求。通过全方位的监控和合理的资源配置，DataWorks 为企业筑牢数据根基，助力数字化转型。

申某某

621 10 11

武子康

|

Java Shell Maven

Flink-11 Flink Java 3分钟上手打包Flink 提交任务至服务器执行 JobSubmit Maven打包Ja配置 maven-shade-plugin

Flink-11 Flink Java 3分钟上手打包Flink 提交任务至服务器执行 JobSubmit Maven打包Ja配置 maven-shade-plugin

武子康

928 4 4

嘟嘟嘟嘟嘟嘟

|

分布式计算 DataWorks 监控

DataWorks产品使用合集之设置任务监控的步骤是什么

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

嘟嘟嘟嘟嘟嘟

241 1 1

三分钟热度的鱼

|

监控 Cloud Native 流计算

实时计算 Flink版产品使用问题之如何查看和管理任务

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

274 1 1

武子康

|

资源调度分布式计算大数据

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

武子康

530 0 0

三分钟热度的鱼

|

资源调度 Java Scala

实时计算 Flink版产品使用问题之如何实现ZooKeeper抖动导致任务失败时，能从最近的检查点重新启动任务

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

377 0 0

番茄酱脑袋

|

数据采集 DataWorks 监控

DataWorks产品使用合集之钉钉机器人无法收到消息是什么导致的

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

番茄酱脑袋

201 0 0

番茄酱脑袋

|

数据采集 SQL DataWorks

DataWorks产品使用合集之如何配置数据质量监控

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

番茄酱脑袋

222 0 0

云原生

云消息队列

热门文章

最新文章

Aliware-MQ消息队列技术架构与最佳实践

什么是消息队列？

为什么需要消息队列，及使用消息队列的好处？

消息队列服务Kafka揭秘：痛点、优势以及适用场景

MQ消息队列.NET SDK的使用

Linux进程间通信——使用消息队列

蚂蚁金服：消息队列事务型消息原理浅析

生产环境消息队列ActiveMQ的数据积压优化过程

高可用服务 AHAS 在消息队列 MQ 削峰填谷场景下的应用

消息队列1：RabbitMQ解析并基于Springboot实战

可视化生成RocketMQ配置工具

Apache RocketMQ + “太乙” = 开源贡献新体验

乐言科技：云原生加速电商行业赋能，云消息队列助力降本 37%

10倍降本、10倍无损弹性！Kafka Serverless 基础版与专业版重磅发布！

ApsaraMQ x Confluent 云原生 Kafka 线上沙龙

云原生 Kafka 问卷调研启动，你的声音很重要！参与赢精美礼品！

RocketMQ Controller 模式始终更新成本机ip

云消息队列 RabbitMQ 版实践解决方案评测

RocketMQ体验测评

关键成果与技术应用

相关课程

更多

实时计算 Flink 版产品入门与实操

一站式大数据开发治理平台DataWorks初级课程

开源 Flink 极速上手教程

大数据实时计算框架Spark快速入门

DataWorks一站式大数据开发治理平台精品课程

Apache Flink 入门

相关电子书

更多

DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季

DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季

基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

下一篇

5月安全新品播课（1）|混合云下割裂的Web安全管理挑战如何破？