DataWorks 运维中心介绍及实践 | 学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 快速学习 DataWorks 运维中心介绍及实践,介绍了 DataWorks 运维中心介绍及实践系统机制, 以及在实际应用过程中如何使用。

开发者学堂课一站式大数据开发治理平台 DataWorks 初级课程DataWorks 运维中心介绍及实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/763/detail/13358


DatatWorks 运维中心介绍及实践


内容介绍:

一、运维中心介绍

二、 监控情况

三、 移动版使用


一、任务运维介绍

(1)运维中心

是对任务进行测试,运维、监控的模块

运维中心包括:运维大屏、任务运维、智能监控

任务运维根据任务运维的方式不同分为:实时任务,周期任务、手动任务

image.png

(2)运维大屏

展示当前您需要关注的任务指标,任务运行的整体情况等信息,

帮助任务运维效率提升。通过点击相应的节点,进行操作。

如图:左边展示任务成功或者失败,左侧展示数据运行的折线图

image.png

(3)任务运维

提供列表和 DAG 两种模式,提供图形化任务管理,千万级任务依赖

Dag 逐级展现。

image.png

实例是任务被调度时生成的执行记录,支持运行诊断、查看运行日志、重跑等操作。

image.png

1.补数据

如:在九月20号进行任务操作,若是想拿到20号之前的数据,根据需求打开补数据界面进行选择,针对数据需求选择数据时间节点。

海量数据:数据节点大

image.png

2. 运行诊断

对于任务运行过程中,出现的数据错误,任务中断,任务阻塞问题,展示上游节点的运行情况,来分析具体在那个节点任务阻塞,来进行运维诊断,针对情况,提供解决方案。

image.png

资源组使用情况,调控资源部份,通过折线展示,黄色表示过去任务,绿色表现任务进行

image.png

还可以针对日志进行聚类分析,提供诊断建议,同时还可进行对比分析。


二、监控情况

(1)常规监控方法

新建一个自定义规则,包括三步

1. 选择监控对象,将某个节点进行设定

2. 设置触发条件

3. 设置报警方式,报警接收人 报警的限度

设置完成,如果任务出错,即可收到短信可设置多个节点,多个监控对象。

image.png

由于上游堵塞或资源紧张可能出现时间延迟问题,针对时间延迟,可设置完成时间进行设置,缺点,针对各个任务节点的结构复杂无法准确预测报警事件,当监控任务数据量巨大,将产生海量报警,无法精确确定报警原因。

image.png

(2)智能监控

在阿里巴巴存在百万级的任务报警,主要通过节点进行解决问题,将重点节点添加到基线上,系统自动推断运行的时间节点,基线上游任务异常自动关联受影响基线

image.png

甘特图性能

(3)智能监控监控原理

如何保证老板九点半看到报表,首先设置报表的设定进行运维时间的报表

此时节点数12,产出节点K,设定基线&业务承诺时间,反推各任务最晚启动时间

识别关键路径,关键链路并不是一成不变的,是动态可调整的,根据任务运行的实际情况,关键路径上的节点出现变慢的情况系统也会出现报警。

image.png

(4)智能监控的使用

天基线针对天任务,小时基线针对小时任务,将需要保障的任务添加到基线,优先级影响资源争抢时的分配策略

image.png

 

三、使用场景

image.png

(1)使用方法

1. 阿里云 app 安装阿里云 app 单机前往数据台

2. 手机浏览器 浏览器输入 workbench. Data. Aliyun.corn 或者直接扫描二维码

3. 钉钉小程序 登陆钉钉,点击工作界面

(2)亮点功能

1. 与报警短信结合, 任务运维快人一步

2. 更清晰的甘特图,横屏竖屏切换自如

3. 查看日志一建到底

4. 手机处理表权限审批

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
16天前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
2月前
|
存储 运维 安全
运维知识沉淀工具深度解析:从结构设计到落地实践全拆解
运维知识沉淀工具助力团队将零散经验结构化存储,实现问题处理路径标准化、知识复用化。通过标签、模板与自动化调取机制,让每次处理都留下可复用资产,提升团队协同效率与系统稳定性。
|
1月前
|
机器学习/深度学习 人工智能 运维
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
这篇文章系统性地阐述了 AI 原生时代下,面向技术风险领域的智能体系统(DeRisk)的架构设计、核心理念、关键技术演进路径与实践落地案例。
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
|
3月前
|
运维 监控 负载均衡
高效运维实践:常见问题的应对策略与实践经验
本文探讨了运维工作中的五大核心挑战及应对策略,涵盖负载均衡优化、数据库性能提升、系统监控预警、容器化与微服务运维等方面,旨在帮助企业提升系统稳定性与运维效率。
|
7月前
|
数据采集 机器学习/深度学习 人工智能
智能运维在IT管理中的实践与探索
【10月更文挑战第21天】 本文深入探讨了智能运维(AIOps)技术在现代IT管理中的应用,通过分析其核心组件、实施策略及面临的挑战,揭示了智能运维如何助力企业实现自动化监控、故障预测与快速响应,从而提升整体运维效率与系统稳定性。文章还结合具体案例,展示了智能运维在实际环境中的显著成效。
389 133
|
3月前
|
运维 监控 安全
从实践到自动化:现代运维管理的转型与挑战
本文探讨了现代运维管理从传统人工模式向自动化转型的必要性与路径,分析了传统运维的痛点,如效率低、响应慢、依赖经验等问题,并介绍了自动化运维在提升效率、降低成本、增强系统稳定性与安全性方面的优势。结合技术工具与实践案例,文章展示了企业如何通过自动化实现运维升级,推动数字化转型,提升业务竞争力。
|
7月前
|
弹性计算 运维 监控
基于进程热点分析与系统资源优化的智能运维实践
智能服务器管理平台提供直观的可视化界面,助力高效操作系统管理。核心功能包括运维监控、智能助手和扩展插件管理,支持系统健康监控、故障诊断等,确保集群稳定运行。首次使用需激活服务并安装管控组件。平台还提供进程热点追踪、性能观测与优化建议,帮助开发人员快速识别和解决性能瓶颈。定期分析和多维度监控可提前预警潜在问题,保障系统长期稳定运行。
251 17
|
7月前
|
运维 自然语言处理 算法
云栖实录 | 大模型在大数据智能运维的应用实践
云栖实录 | 大模型在大数据智能运维的应用实践
728 3
|
7月前
|
运维 Kubernetes Cloud Native
云栖实录 | 智能运维:云原生大规模集群GitOps实践
云栖实录 | 智能运维:云原生大规模集群GitOps实践
250 1
|
7月前
|
运维 自然语言处理 Cloud Native
云栖实录 | 智能运维年度重磅发布及大模型实践解读
云栖实录 | 智能运维年度重磅发布及大模型实践解读
344 0

热门文章

最新文章