DataWorks智能监控模块介绍|学习笔记

本文涉及的产品
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
简介: 快速学习 DataWorks 智能监控模块介绍

开发者学堂课程【DataWorks 使用教程:DataWorks 智能监控模块介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/107/detail/1863


DataWorks 智能监控模块介绍


内容简介:

一、Why 智能监控

二、How 智能监控 works

三、使用方法

四、问题与解答

五、答案揭晓

 

一、Why 智能监控

(一)DataWorks运维中心

数据运维

l 运维大屏

总览工作空间中任务运行情况,查看图表

l 任务管理

管理 DataStudio 发布的任务定义

l 实例管理

管理每天生成的任务实例

l 监控报警

真正天天用、 天天收,牵动运维同学神经的功能。

(二)常规监控的痛点

1.过程:

Step 1 :确定最终节点的期望产出时间

Step 2 :推算各节点的报警阈值 *5

Step 3 :分别配置监控规则 * 5

2.常规监控的痛点小结

l 多:任务非常的多,用户无法准确地梳理出哪些任务需要监控。

l 繁:任务之间的依赖错综复杂,只知道最重要产出的任务是什么。

l 错:除了最下游任务,中游、上游任务的监控阈值一般不科学。

l 难:上游出错会连带下游一起报警,在以排查问题根因。

3.解决方法

l 基线:只需关注最终数据产出时间。

l 智能:系统后台自动推断沿途任务监控时点事件。

l 事件:基线上游任务异常白动关联受影响基线分析。

l 分析:甘特图性能瓶颈一眼便知。

 

二、 How 智能监控 works

(一)具体场景:

节点数: 12

产出节点: K

l 设定基线&业务承诺时间

l 反推各任务最晚启动时间

l 识别关键路径

l 关键路径

l 非关键路径

l 非路径

l 根据任务实际运行情况,动态调整关键路径

(二)核心概念1

l 基线:承诺产出的任务节点(天/小时)

l 承诺时间:基线任务需要保障的时间点

l 预警时间:承诺时间的预警余量(最长120min )

l 关键路径:完成基线过程中的最长路径

(三)解决过程

l 事件报警:

2018 年 11 月 27 日x:xx:xx

节点任务xxxxx出错,负责人: xxx

影响基线:  xxxxxx

XXXXXX

XXXXXX

(1)基线路径(包含关键&非关键路径)上的任务出错,即触发事件报警

(2)基线关键路径上的任务相对历史记录变慢,也会触发事件报警。

l 基线预警:

2018年11月27日XX:XX:XX

基线xxx预警,余量: -10min,负责人:XXXXXXX

当前任务: XXXX负责人: XXXXXX

根据当前时刻与关键路径运行状态推算,预警、破线及被暂停状态的基线会触发预警。

(四)核心概念2

l 事件监控范围:只有基线路径上的任务才会被纳入基线监控范围(包括关键路径与非关键路径)。

l 基线事件:事件监控范围中的任务出错与变慢。

l 基线预警:不论任何原因,基线的预计完成时间超出预警时间。

l 基线破线:不论任何原因,基线的预计完成时间超出承诺时间。

 

三、使用方法

(一)基线管理

基线的创建、查询、修改、开关。

*仅主账号可以开关基线

l 天基线针对天任务,小时基线针对小时任务

l 基线可以包含多个任务

l 单所有任务需处于同一工作空间

l 优先级:

n MaxCompute 后付费用户: 1

n MaxCompute 预付费用户: 1、3、5、7、8 数值越高优先级越高

l 预计完成时间:根据近 15 天运行情况预测

l 优先级影响资源争抢时的分配策略

l 简单模式小时基线:统设定每个周期的承诺时长运会全理程定云服务商。

l 高级模式小时基线:分别设定每个周期的承诺时间。

(二)基线实例

基线实例的查看、处理。

*仅未完成且处于预警、破线状态的基线可以处理。

l 甘特图查看基线关键路径。

(三)事件管理

查看事件详情。

(四)规则管理

全局报警规则、自定义报警规则的创建、修改、开关

*仅主账号和规则创建人可以修改、开关

(五)报警信息

报警信息查看

(六)使用流程

图片56.png


四、问题与解答

智能监控FAQ

问:基线中添加任务有何限制?

答:天基线中只能添加天任务,小时基线中智能添加小时任务。同时同一基线中的任务必须来自同工作空间。

问:为何我没有配任何基线和规则,却收到了告警?

答:是因为下游任务配直了基线!这样你的任务也会被纳人事件监控范围,如果任务出错或变慢,一样可能收到报警。同时,也有可能是有其他同学将你手动指定为接收人用。

问:基线的监控范围可以跨工作空间吗?

答:可以。只要在基线上游,同租户内的其他工作空间中的任务,一样会被纳入监控范围。

问:跨天任务如何监控?

答:基线实例的监控时效为 48 小时,自定义监控的监控时效目前为 24 小时(未来计划扩展至 48 小时)。

问:基线的预警余量有何作用?设定有何限制?

答:通过预警余量,可以提前收到基线预警,给故障处理留足时间。

问:超时规则和未完成规则的区别?

答:超市规则设定相对时间,未完成规则设定绝对时刻。

问:智能监控可否与自建的监控系统对接,通过自建系统完成报警的二次处理或二次分发?

答:是可以的。智能监控支持通过 webhook 方式发送报警,webhook 办议参照钉钉自定义机器人( ht:/pen;doc dingtalk.com/docs/doc htm?treeld= :257&aricleld= 105735&docType=1 )。


五、答案揭晓

问:什么情况下,收到了事件报警,却不会收到基线预警(不破线) ?

答:尽管发生了事件,但处理及时,还是赶上了承诺时间。

问:什么情况下,收到了基线预警,却不会收到事件报警?

答:承诺时间或预警余量设置不合理 ,虽然- 切正常 ,但还是预警/破线了。

问:什么情况下,先收到事件报警,再收到基线预警?

答:事件处理不及时,,直接导致基线预警破线。

问:什么情况下,先收到基线预警,再收到事件报警?

答:承诺时间过早,事件来不及产生,不能很好的保障承诺时间。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
2月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
178 53
|
2月前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何配置数据质量监控
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之如何自定义监控规则
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
资源调度 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python UDF(User-Defined Function)来引用第三方模块
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之在进行数据查询和数据处理时,如何通过数据建模与开发模块来创建和管理SQL脚本
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之无法在表管理模块搜索到ODPS的表,一般是什么导致的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之跑python3脚本,已按照文档安装上模块,提示找不到模块,是什么问题
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 0
|
4月前
|
SQL DataWorks 监控
DataWorks操作报错合集之在点击DQC监控时,跳转到DQC页面出现报错,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何监控表的每日数据产出是否存在
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 监控 API
DataWorks产品使用合集之在调用API创建质量监控规则中的校验器的ID可以在哪里找到
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
下一篇
无影云桌面