DataWorks 运维中心介绍及实践 | 学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习 DataWorks 运维中心介绍及实践,介绍了 DataWorks 运维中心介绍及实践系统机制, 以及在实际应用过程中如何使用。

开发者学堂课一站式大数据开发治理平台 DataWorks 初级课程DataWorks 运维中心介绍及实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/763/detail/13358


DatatWorks 运维中心介绍及实践


内容介绍:

一、运维中心介绍

二、 监控情况

三、 移动版使用


一、任务运维介绍

(1)运维中心

是对任务进行测试,运维、监控的模块

运维中心包括:运维大屏、任务运维、智能监控

任务运维根据任务运维的方式不同分为:实时任务,周期任务、手动任务

image.png

(2)运维大屏

展示当前您需要关注的任务指标,任务运行的整体情况等信息,

帮助任务运维效率提升。通过点击相应的节点,进行操作。

如图:左边展示任务成功或者失败,左侧展示数据运行的折线图

image.png

(3)任务运维

提供列表和 DAG 两种模式,提供图形化任务管理,千万级任务依赖

Dag 逐级展现。

image.png

实例是任务被调度时生成的执行记录,支持运行诊断、查看运行日志、重跑等操作。

image.png

1.补数据

如:在九月20号进行任务操作,若是想拿到20号之前的数据,根据需求打开补数据界面进行选择,针对数据需求选择数据时间节点。

海量数据:数据节点大

image.png

2. 运行诊断

对于任务运行过程中,出现的数据错误,任务中断,任务阻塞问题,展示上游节点的运行情况,来分析具体在那个节点任务阻塞,来进行运维诊断,针对情况,提供解决方案。

image.png

资源组使用情况,调控资源部份,通过折线展示,黄色表示过去任务,绿色表现任务进行

image.png

还可以针对日志进行聚类分析,提供诊断建议,同时还可进行对比分析。


二、监控情况

(1)常规监控方法

新建一个自定义规则,包括三步

1. 选择监控对象,将某个节点进行设定

2. 设置触发条件

3. 设置报警方式,报警接收人 报警的限度

设置完成,如果任务出错,即可收到短信可设置多个节点,多个监控对象。

image.png

由于上游堵塞或资源紧张可能出现时间延迟问题,针对时间延迟,可设置完成时间进行设置,缺点,针对各个任务节点的结构复杂无法准确预测报警事件,当监控任务数据量巨大,将产生海量报警,无法精确确定报警原因。

image.png

(2)智能监控

在阿里巴巴存在百万级的任务报警,主要通过节点进行解决问题,将重点节点添加到基线上,系统自动推断运行的时间节点,基线上游任务异常自动关联受影响基线

image.png

甘特图性能

(3)智能监控监控原理

如何保证老板九点半看到报表,首先设置报表的设定进行运维时间的报表

此时节点数12,产出节点K,设定基线&业务承诺时间,反推各任务最晚启动时间

识别关键路径,关键链路并不是一成不变的,是动态可调整的,根据任务运行的实际情况,关键路径上的节点出现变慢的情况系统也会出现报警。

image.png

(4)智能监控的使用

天基线针对天任务,小时基线针对小时任务,将需要保障的任务添加到基线,优先级影响资源争抢时的分配策略

image.png

 

三、使用场景

image.png

(1)使用方法

1. 阿里云 app 安装阿里云 app 单机前往数据台

2. 手机浏览器 浏览器输入 workbench. Data. Aliyun.corn 或者直接扫描二维码

3. 钉钉小程序 登陆钉钉,点击工作界面

(2)亮点功能

1. 与报警短信结合, 任务运维快人一步

2. 更清晰的甘特图,横屏竖屏切换自如

3. 查看日志一建到底

4. 手机处理表权限审批

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
8天前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
8天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
16天前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
18天前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
48 5
|
15天前
|
运维 负载均衡 Ubuntu
自动化运维的利器:Ansible入门与实践
【10月更文挑战第31天】在当今快速发展的信息技术时代,高效的运维管理成为企业稳定运行的关键。本文将引导读者了解自动化运维工具Ansible的基础概念、安装步骤、基本使用,以及如何通过实际案例掌握其核心功能,从而提升工作效率和系统稳定性。
|
16天前
|
运维 资源调度 监控
提升运维效率的关键技术与实践
在当今快速发展的信息技术时代,运维工作面临着前所未有的挑战和机遇。本文旨在探讨如何通过采用先进的技术和实施最佳实践来提高IT运维的效率和效果。我们将深入分析自动化工具、监控策略、灾难恢复计划以及持续集成/持续部署(CI/CD)等关键领域,展示它们如何协同工作以优化运维流程。此外,文章还将提供一些实际案例研究,帮助读者更好地理解这些概念的应用。无论是对于初创公司还是大型企业,掌握这些技术都将是提升竞争力的关键。
|
25天前
|
运维 应用服务中间件 持续交付
自动化运维的利器:Ansible入门与实践
【10月更文挑战第21天】在现代IT基础设施的管理中,自动化运维已成为提升效率、降低错误率的关键。Ansible,作为一种简单而强大的自动化工具,正被广泛应用于配置管理、应用部署和任务自动化等领域。本文将引导你了解Ansible的基本概念,通过实际案例展示如何利用Ansible简化日常运维工作,并探讨其在现代IT运维中的应用价值。无论你是新手还是有经验的系统管理员,这篇文章都将为你开启Ansible的高效之旅提供指导。
|
1月前
|
运维 自然语言处理 开发者
作为一名运维人员,使用通义灵码个人版处理日常工作中的代码相关任务,极大地提升了我的工作效率。以下是我使用通义灵码的具体实践场景、效果和心得,以及相应的截图。
作为一名运维人员,我使用通义灵码处理日常工作中的代码任务,效率提升了30%。通义灵码帮助我快速理解复杂代码、生成准确的代码注释,并能从自然语言生成代码示例,大幅减少了代码编写和理解的时间。
57 3
|
1月前
|
运维 Prometheus 监控
运维之眼:监控的艺术与实践
在信息技术飞速发展的今天,运维监控已成为保障系统稳定运行的关键。本文将探讨运维监控的重要性,介绍常用的监控工具和方法,并通过实际案例分析,展示如何有效地实施监控策略,以确保系统的高可用性和性能。
|
28天前
|
运维 监控 jenkins
运维自动化实践:利用Jenkins实现高效CI/CD流程
【10月更文挑战第18天】运维自动化实践:利用Jenkins实现高效CI/CD流程

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    107
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    105
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    90
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    87
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    101
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    111
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    150
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    84
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    120