开发者学堂课程【一站式大数据开发治理平台 DataWorks 初级课程:DataWorks 运维中心介绍及实践】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/763/detail/13358
DatatWorks 运维中心介绍及实践
内容介绍:
一、运维中心介绍
二、 监控情况
三、 移动版使用
一、任务运维介绍
(1)运维中心
是对任务进行测试,运维、监控的模块
运维中心包括:运维大屏、任务运维、智能监控
任务运维根据任务运维的方式不同分为:实时任务,周期任务、手动任务
(2)运维大屏
展示当前您需要关注的任务指标,任务运行的整体情况等信息,
帮助任务运维效率提升。通过点击相应的节点,进行操作。
如图:左边展示任务成功或者失败,左侧展示数据运行的折线图
(3)任务运维
提供列表和 DAG 两种模式,提供图形化任务管理,千万级任务依赖
Dag 逐级展现。
实例是任务被调度时生成的执行记录,支持运行诊断、查看运行日志、重跑等操作。
1.补数据
如:在九月20号进行任务操作,若是想拿到20号之前的数据,根据需求打开补数据界面进行选择,针对数据需求选择数据时间节点。
海量数据:数据节点大
2. 运行诊断
对于任务运行过程中,出现的数据错误,任务中断,任务阻塞问题,展示上游节点的运行情况,来分析具体在那个节点任务阻塞,来进行运维诊断,针对情况,提供解决方案。
资源组使用情况,调控资源部份,通过折线展示,黄色表示过去任务,绿色表现任务进行
还可以针对日志进行聚类分析,提供诊断建议,同时还可进行对比分析。
二、监控情况
(1)常规监控方法
新建一个自定义规则,包括三步
1. 选择监控对象,将某个节点进行设定
2. 设置触发条件
3. 设置报警方式,报警接收人 报警的限度
设置完成,如果任务出错,即可收到短信可设置多个节点,多个监控对象。
由于上游堵塞或资源紧张可能出现时间延迟问题,针对时间延迟,可设置完成时间进行设置,缺点,针对各个任务节点的结构复杂无法准确预测报警事件,当监控任务数据量巨大,将产生海量报警,无法精确确定报警原因。
(2)智能监控
在阿里巴巴存在百万级的任务报警,主要通过节点进行解决问题,将重点节点添加到基线上,系统自动推断运行的时间节点,基线上游任务异常自动关联受影响基线
甘特图性能
(3)智能监控监控原理
如何保证老板九点半看到报表,首先设置报表的设定进行运维时间的报表
此时节点数12,产出节点K,设定基线&业务承诺时间,反推各任务最晚启动时间
识别关键路径,关键链路并不是一成不变的,是动态可调整的,根据任务运行的实际情况,关键路径上的节点出现变慢的情况系统也会出现报警。
(4)智能监控的使用
天基线针对天任务,小时基线针对小时任务,将需要保障的任务添加到基线,优先级影响资源争抢时的分配策略
三、使用场景
(1)使用方法
1. 阿里云 app 安装阿里云 app 单机前往数据台
2. 手机浏览器 浏览器输入 workbench. Data. Aliyun.corn 或者直接扫描二维码
3. 钉钉小程序 登陆钉钉,点击工作界面
(2)亮点功能
1. 与报警短信结合, 任务运维快人一步
2. 更清晰的甘特图,横屏竖屏切换自如
3. 查看日志一建到底
4. 手机处理表权限审批