DataWorks智能监控模块介绍|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习 DataWorks 智能监控模块介绍

开发者学堂课程【DataWorks 使用教程:DataWorks 智能监控模块介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/107/detail/1863


DataWorks 智能监控模块介绍


内容简介:

一、Why 智能监控

二、How 智能监控 works

三、使用方法

四、问题与解答

五、答案揭晓

 

一、Why 智能监控

(一)DataWorks运维中心

数据运维

l 运维大屏

总览工作空间中任务运行情况,查看图表

l 任务管理

管理 DataStudio 发布的任务定义

l 实例管理

管理每天生成的任务实例

l 监控报警

真正天天用、 天天收,牵动运维同学神经的功能。

(二)常规监控的痛点

1.过程:

Step 1 :确定最终节点的期望产出时间

Step 2 :推算各节点的报警阈值 *5

Step 3 :分别配置监控规则 * 5

2.常规监控的痛点小结

l 多:任务非常的多,用户无法准确地梳理出哪些任务需要监控。

l 繁:任务之间的依赖错综复杂,只知道最重要产出的任务是什么。

l 错:除了最下游任务,中游、上游任务的监控阈值一般不科学。

l 难:上游出错会连带下游一起报警,在以排查问题根因。

3.解决方法

l 基线:只需关注最终数据产出时间。

l 智能:系统后台自动推断沿途任务监控时点事件。

l 事件:基线上游任务异常白动关联受影响基线分析。

l 分析:甘特图性能瓶颈一眼便知。

 

二、 How 智能监控 works

(一)具体场景:

节点数: 12

产出节点: K

l 设定基线&业务承诺时间

l 反推各任务最晚启动时间

l 识别关键路径

l 关键路径

l 非关键路径

l 非路径

l 根据任务实际运行情况,动态调整关键路径

(二)核心概念1

l 基线:承诺产出的任务节点(天/小时)

l 承诺时间:基线任务需要保障的时间点

l 预警时间:承诺时间的预警余量(最长120min )

l 关键路径:完成基线过程中的最长路径

(三)解决过程

l 事件报警:

2018 年 11 月 27 日x:xx:xx

节点任务xxxxx出错,负责人: xxx

影响基线:  xxxxxx

XXXXXX

XXXXXX

(1)基线路径(包含关键&非关键路径)上的任务出错,即触发事件报警

(2)基线关键路径上的任务相对历史记录变慢,也会触发事件报警。

l 基线预警:

2018年11月27日XX:XX:XX

基线xxx预警,余量: -10min,负责人:XXXXXXX

当前任务: XXXX负责人: XXXXXX

根据当前时刻与关键路径运行状态推算,预警、破线及被暂停状态的基线会触发预警。

(四)核心概念2

l 事件监控范围:只有基线路径上的任务才会被纳入基线监控范围(包括关键路径与非关键路径)。

l 基线事件:事件监控范围中的任务出错与变慢。

l 基线预警:不论任何原因,基线的预计完成时间超出预警时间。

l 基线破线:不论任何原因,基线的预计完成时间超出承诺时间。

 

三、使用方法

(一)基线管理

基线的创建、查询、修改、开关。

*仅主账号可以开关基线

l 天基线针对天任务,小时基线针对小时任务

l 基线可以包含多个任务

l 单所有任务需处于同一工作空间

l 优先级:

n MaxCompute 后付费用户: 1

n MaxCompute 预付费用户: 1、3、5、7、8 数值越高优先级越高

l 预计完成时间:根据近 15 天运行情况预测

l 优先级影响资源争抢时的分配策略

l 简单模式小时基线:统设定每个周期的承诺时长运会全理程定云服务商。

l 高级模式小时基线:分别设定每个周期的承诺时间。

(二)基线实例

基线实例的查看、处理。

*仅未完成且处于预警、破线状态的基线可以处理。

l 甘特图查看基线关键路径。

(三)事件管理

查看事件详情。

(四)规则管理

全局报警规则、自定义报警规则的创建、修改、开关

*仅主账号和规则创建人可以修改、开关

(五)报警信息

报警信息查看

(六)使用流程

图片56.png


四、问题与解答

智能监控FAQ

问:基线中添加任务有何限制?

答:天基线中只能添加天任务,小时基线中智能添加小时任务。同时同一基线中的任务必须来自同工作空间。

问:为何我没有配任何基线和规则,却收到了告警?

答:是因为下游任务配直了基线!这样你的任务也会被纳人事件监控范围,如果任务出错或变慢,一样可能收到报警。同时,也有可能是有其他同学将你手动指定为接收人用。

问:基线的监控范围可以跨工作空间吗?

答:可以。只要在基线上游,同租户内的其他工作空间中的任务,一样会被纳入监控范围。

问:跨天任务如何监控?

答:基线实例的监控时效为 48 小时,自定义监控的监控时效目前为 24 小时(未来计划扩展至 48 小时)。

问:基线的预警余量有何作用?设定有何限制?

答:通过预警余量,可以提前收到基线预警,给故障处理留足时间。

问:超时规则和未完成规则的区别?

答:超市规则设定相对时间,未完成规则设定绝对时刻。

问:智能监控可否与自建的监控系统对接,通过自建系统完成报警的二次处理或二次分发?

答:是可以的。智能监控支持通过 webhook 方式发送报警,webhook 办议参照钉钉自定义机器人( ht:/pen;doc dingtalk.com/docs/doc htm?treeld= :257&aricleld= 105735&docType=1 )。


五、答案揭晓

问:什么情况下,收到了事件报警,却不会收到基线预警(不破线) ?

答:尽管发生了事件,但处理及时,还是赶上了承诺时间。

问:什么情况下,收到了基线预警,却不会收到事件报警?

答:承诺时间或预警余量设置不合理 ,虽然- 切正常 ,但还是预警/破线了。

问:什么情况下,先收到事件报警,再收到基线预警?

答:事件处理不及时,,直接导致基线预警破线。

问:什么情况下,先收到基线预警,再收到事件报警?

答:承诺时间过早,事件来不及产生,不能很好的保障承诺时间。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
13天前
|
SQL 分布式计算 DataWorks
活动实践 | DataWorks智能交互式数据开发与分析之旅
本指南介绍了如何使用阿里云平台进行大数据开发与分析。首先,在MaxCompute控制台创建项目并配置计算资源;接着,通过DataWorks控制台创建工作空间和独享资源组,并绑定工作空间。然后,创建个人开发环境,载入案例并新建Notebook实例。在Notebook中,通过SQL和Python Cell进行交互式开发和数据分析,体验智能助手Copilot的功能,如SQL改写、解释、生成注释及智能建表。最后,清理所有创建的资源,包括删除DataWorks资源、MaxCompute项目及网络配置,确保环境整洁。
|
21天前
|
运维 监控 DataWorks
DataWorks 稳定性保障全解析:深入监控与资源调配
DataWorks 的稳定性保障体系涵盖精细监控与资源调配,确保企业数据业务高效、稳定运行。监控模块包括资源、任务和质量监控,及时预警并处理异常;资源调配策略则针对集成、调度、数据服务及计算资源进行科学配置,保障数据同步、任务优先级和高并发需求。通过全方位的监控和合理的资源配置,DataWorks 为企业筑牢数据根基,助力数字化转型。
64 10
|
20天前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks智能交互式数据开发与分析之旅
本次实验将带您进行DataWorks Notebook的快速入门,包含:Notebook新建、多引擎SQL开发与分析、Python开发、交互式分析等,同时,使用DataWorks Copilot体验智能数据开发,体验智能交互式数据探索之旅。
2498 10
|
1月前
|
DataWorks 搜索推荐 大数据
聊聊DataWorks——这个一站式智能大数据开发治理平台
聊聊DataWorks——这个一站式智能大数据开发治理平台
229 2
|
5月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
392 53
|
5月前
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之设置任务监控的步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
资源调度 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python UDF(User-Defined Function)来引用第三方模块
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何配置数据质量监控
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之如何自定义监控规则
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    135
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    142
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    122
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    119
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    118
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    136
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    142
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    191
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    103
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    152