5.DataWorks 运维中心介绍及实践|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习5.DataWorks 运维中心介绍及实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:5.DataWorks 运维中心介绍及实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1231


5.DataWorks 运维中心介绍及实践

内容介绍:

一、运维中心简介

二、智能监控

三、移动版DataWorks

一、运维中心简介

1、什么是运维中心

(1)运维中心是对任务进行测试、运维、监控的模块。

(2)包括三部分:运维大屏、任务运维、智能监控

(3)任务运维分为:实时任务、周期任务、手动任务

任务运维根据任务的触发方式不同,又可以分为实时任务、运维周期任务运维和手动任务运维。

2、运维大屏

image.png

运维大屏展示当前您需要重点关注的运维指标、任务整体运行情况、调度资源变化趋势等信息,帮助您提升任务运维效率。

3、任务运维

image.png

(1)提供列表和DAG两种模式

(2)提供图形化任务管理,千万级任务依赖图( DAG )逐级展现

3实例是任务被调度时生成的执行记录

(4)支持运行诊断、查看运行日志、重跑等操作

4、常见运维操作一补数据

(1)经常会有用户问,比如9月20号提交发布任务,那么任务最早会从9月20号开始定时运行,数据会定时的产出。那现在想拿到9月20号之前的数据,应该怎么办?

(2)这时可以用到补数据的功能,它的入口是在周期任务,选中某节点后,在右边一个下拉,可以看到有补数据的选项,也可以在DAG图上对某节点进行右键,里面也会有数据的选项,那根据需求,可以选择补数据的节点的范围,是只对当前节点补数据,还是当前节点和下游或者是海量节点模式,在海量节点模式下用户是可以选择多个工作空间下面的多个节点进行数据的操作,那比方想把9月份的数据都补完,那可以设置为9月1号到9月19号。当补数据的时间范围比较大,或者节点数量比较多时,可以设置病情,这样提高它补数据的速度。因此补数据操作可以帮助用户获得过去某个特定时间段的数据

5常见运维操作一运行诊断

(1)展示上游节点运行情况,迅速定位阻塞节点

(2)展示资源组使用情况,调整任务错峰运行

(3)展示历史运行情况,方便进行纵向对比

(4)日志聚类锁定错误原因,提供诊断建议

任务在定时运行的过程中,最理想的情况就是任务运行不出错,任务产出的时间有保障,是每个运维人员的梦想,但事实上任务运行时总会遇到一些问题,任务的定时时间到,为什么任务还不跑?任务为什么运行变慢任务为什么运行出错?这时就可以用到运维中心的运行诊断的功能,点击任务运行状态的图标发起运行诊断,也可以在Dag图上某一个任务上右键选择运行诊断发起。首先诊断包括4个部分,上游依赖定时检查调度资源和任务执行,首先它展示上游节点的运行情况,可以让用户迅速的定位是哪个节点阻塞,因为任务运行的前提条件是它上游的节点都已经运行成功,接下来会做定时检查任务的定时时间有没有到调度资源部分展示资源组的水位情况,其中折现是资源组水位的变化趋势,黄色色块表示任务在等资源,绿色色块表示任务在运行,下面展示同时段占用资源的一些任务。

对于 maxcompute 任务,还可以对运行的日志做聚类分析,智能的提供诊断建议,这个任务因为语法错误而造成任务运行失败,同时还可以通过对历史实例的查看比对同一个任务它最近15次的实例的运行情况。


二、智能监控

dataworks 智能监控模块同时提供全局规则、自定义规则和基线三种监控方式。

1、常规监控方法

步骤:

(1)选择监控的对象

(2)设置触发条件

(3)设置报警方式、报警接收人

2、常规监控方法的问题

当业务流程变得比较复杂或者相当复杂时,上面的问题都会变得更严重,而且对于这么多的节点,是很难梳理出哪些任务需要监控,这就导致下面的问题,大量的任务会产生大量的报警,无法从这么多报警信息中快速的定位故障的原因

3、智能监控

(1)多

任务非常的多,用户无法准确地梳理出哪些任务需要监控

(2)繁

任务之间的依赖错综复杂,只知道最重要产出的任务是什么

(3)错

除了最下游任务,中游、上游任务的监控阈值一般不科学

4)难

上游出错会连带下游一起报警,难以排查问题根因

那这些问题其实在阿里巴巴内部都是存在的,阿里巴巴内部每天有百万级的这样实例在运行,那阿里巴巴是如何做到对这么大体量的任务的高效的监控?答案就是基线,运维中心的智能监控的智能两个字就体现在基线上。

1.基线

只需将重要节点添加到基线

2.智能

系统自动推断上游节点运行的时间节点

3.事件

基线上游任务异常自动关联受影响基线

4.分析

甘特图性能瓶颈一眼便知

只需要将重要的节点添加到基线上,节点的上游就会自动纳入基线的监控范围,系统会自动推断出节点的启动时间和完成时间,上游任务的异常会产生报警,报警包括出错和变慢,同时提供甘特图可以帮助用户快速的锁定整个业务流程的瓶颈的节点。

4、智能监控原理

节点数: 12

产出节点: K

设定基线&业务承诺时间

反推各任务最晚启动时间

识别关键路径,甘特图展示关键路径运行情况

根据任务实际运行情况,动态调整关键路径

image.png

(1)它包含12个节点,其中k节点是关键的产出的节点,有一个报表消费节点产出的数据,老板每天9:30需要查看报表。首先k设置一条基线,并且把基线的承诺时间设置为9:30,同时给他30分钟的预警 buffer,这就是需要做的全部的操作,那操作会引发什么系统的什么动作?

(2)首先系统会把影响k产出的节点都纳入基线的监控范围,也就是图中这些蓝色的节点, cgjl这4个节点是不会被纳基线的监控范围,因为它们不是k的上游节点,不会影响k的产出。那图中的这些蓝色的节点如果运行出错,都会产生一条出错的报警,因为他们运行出错意味着k节点不能正常的开始运行。可以根据基建的承诺时间,以及各个任务的历史的运行时长,倒推出各个任务需要开始运行的时间。

(3)以k节点为例,承诺时间是9:30,预警 buffer30分钟,因此k需要在9点时运行完成,而k的平均运行时长是30分钟,因此k需要在8:30时就开始预警,而I的平均运行时间是两个小时,因此它需要在6:30时,它最少需要在6:30时就开始运行,用类似的方法一直倒推出,a需要在4:30时就开始运行。这时可以找到一条关键的链路abfik什么是关键链路?就是它的执行时间是最长的一条链路,把它标记为关键路径,而关键路径其实不是一成不变的,根据任务的运行情况,那其实是动态的在变化的系统会动态的去调整关键路径。比如e节点它的运行时间从10分钟变成40分钟,那这时abeik就变成关键路径,如果关键路径上的节点出现变慢的情况,那这时用户收到一条报警。同时系统会一直计算这条基线预计的完成时间,如果预计的完成时间可能会晚于承诺时间减去预警buffer,那也会收到一条基线的报警。如果把k放到一条基线上,那么这个节点本身以及任何影响节点产出的异常,都会被监测到,这样就通过非常简单的操作,

就是为k设计一条基线,并且给基线承诺时间和预警buffer,通过非常简单的操作,就可以洞察到所有影响重点节点的异常

5、智能监控的使用

(1)天基线针对天任务,小时基线针对小时任务

(2)将需要保障的任务添加到基线

(3)优先级影响资源争抢时的分配策略

基线是在运维中心智能监控一级菜单,可以在基线管理tab新建基线,其中基线的类型包括天基线和小时基线,天基线针对天任务小时基线针对小时任务,把需要保障的任务添加到基线,然后给优先级,优先级越高在抢占资源时就会被优先的分配,在阿里巴巴内部也是通过基线的优先级保障重点任务的定时产出的,然后给它设置承诺时间和预警 buffer 即可


三、移动版DataWorks

1、使用场景

很多 dataworks 用户都会遇到这种情况,比如下班回家,或者是在出差旅行的途中,这时用户收到任务报警,或者是有的同学需要审批,发起表权限的申请,需要人审批,或者是收到产品即将到期的提醒,这时用户就需要打开电脑处理,那如果遇到没有电脑的情况应该怎么办?

2、快速开始

阿里云App :

安装阿里云App,在顶部搜索栏中输入 DataWorks (不区分大小写),单击前往控制台。

手机浏览器:

浏览器输入 workbench.data.aliyun.com, 或者直接扫描下方维码。

将网页保存为书签,以便您之后使用移动版DataWorks。

钉钉小程序:

登录手机钉钉,单击钉钉下方菜单栏中的工作。

单击页面左上方,切换至“大数据+AI”组织。

单击数据应用> DataWorks。

具体的操作可以在官方的操作文档中找到。

3、亮点功能

(1)与报警短信结合,任务运维快人可以直接在手机浏览器中打开移动运维的功能

(2)使用基线的用户可能体会更深一点,更清晰的甘特图,横屏竖屏切换自如

(3)查看日志一键到底,再也不用做没有感情的翻页机器

(4)手机处理表权限审批另外现在推出移动审批的功能,用户也可以在手机上直接处理表权限的审批,同时提供同时支持批量的操作。如果用户打开阿里APP的消息通知的权限,如果有人申请表权限通知,那审批人会收到一条阿里云APP的推送消息,点击推送消息可以一键直达移动审批进行审批的操作

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
8天前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
8天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
16天前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
18天前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
48 5
|
15天前
|
运维 负载均衡 Ubuntu
自动化运维的利器:Ansible入门与实践
【10月更文挑战第31天】在当今快速发展的信息技术时代,高效的运维管理成为企业稳定运行的关键。本文将引导读者了解自动化运维工具Ansible的基础概念、安装步骤、基本使用,以及如何通过实际案例掌握其核心功能,从而提升工作效率和系统稳定性。
|
16天前
|
运维 资源调度 监控
提升运维效率的关键技术与实践
在当今快速发展的信息技术时代,运维工作面临着前所未有的挑战和机遇。本文旨在探讨如何通过采用先进的技术和实施最佳实践来提高IT运维的效率和效果。我们将深入分析自动化工具、监控策略、灾难恢复计划以及持续集成/持续部署(CI/CD)等关键领域,展示它们如何协同工作以优化运维流程。此外,文章还将提供一些实际案例研究,帮助读者更好地理解这些概念的应用。无论是对于初创公司还是大型企业,掌握这些技术都将是提升竞争力的关键。
|
25天前
|
运维 应用服务中间件 持续交付
自动化运维的利器:Ansible入门与实践
【10月更文挑战第21天】在现代IT基础设施的管理中,自动化运维已成为提升效率、降低错误率的关键。Ansible,作为一种简单而强大的自动化工具,正被广泛应用于配置管理、应用部署和任务自动化等领域。本文将引导你了解Ansible的基本概念,通过实际案例展示如何利用Ansible简化日常运维工作,并探讨其在现代IT运维中的应用价值。无论你是新手还是有经验的系统管理员,这篇文章都将为你开启Ansible的高效之旅提供指导。
|
1月前
|
运维 自然语言处理 开发者
作为一名运维人员,使用通义灵码个人版处理日常工作中的代码相关任务,极大地提升了我的工作效率。以下是我使用通义灵码的具体实践场景、效果和心得,以及相应的截图。
作为一名运维人员,我使用通义灵码处理日常工作中的代码任务,效率提升了30%。通义灵码帮助我快速理解复杂代码、生成准确的代码注释,并能从自然语言生成代码示例,大幅减少了代码编写和理解的时间。
57 3
|
1月前
|
运维 Prometheus 监控
运维之眼:监控的艺术与实践
在信息技术飞速发展的今天,运维监控已成为保障系统稳定运行的关键。本文将探讨运维监控的重要性,介绍常用的监控工具和方法,并通过实际案例分析,展示如何有效地实施监控策略,以确保系统的高可用性和性能。
|
28天前
|
运维 监控 jenkins
运维自动化实践:利用Jenkins实现高效CI/CD流程
【10月更文挑战第18天】运维自动化实践:利用Jenkins实现高效CI/CD流程

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    107
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    105
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    90
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    87
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    101
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    111
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    150
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    84
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    120