【Dataphin智能运维】智能基线,自动化预警代替人工监控

简介: DataphinV3.6版本全新上线智能运维模块,支持基线监控和调度限流功能。基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低人工配置成本、提升监控及时性和准确性、避免无效报警,运维人员的好帮手,管理者的福音!

智能基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低配置成本、避免无效报警、自动监控所有重要任务。


一、相关概念介绍

概念

释义

基线负责人

负责配置基线的保障节点、保障时间及告警配置等,为整条基线按时产出正确的数据负责,通常会接收基线预警和破线的告警消息。

基线任务负责人

每条基线中每个任务的负责人被称为基线任务负责人(即任务运维负责人),主要保障单个任务不影响整条基线按时产出正确的数据,一般是被动加入基线维护的,通常会接收基线上单个任务运行出错或变慢的告警消息。

基线优先级

  • 基线优先级和任务优先级只有一个生效。
  • 任务被添加到基线后,以相关的基线中最高的优先级作为任务优先级,原本配置的任务优先级无效;任务没有任何相关基线时,以任务优先级为准。
  • 开通基线功能后,调度配置部分的任务优先级,以及运维中心的修改优先级,仅支持选择:最低、低、中等,以保障基线任务可以配置更高的优先级,优先分配资源。
  • 基线优先级可以上传导至计算引擎侧的调度优先级,基线等级越高调度优先级越高。

基线保障节点

一个基线至少有一个需要保障的末端节点,可以添加多个保障节点,保障节点的所有上游依赖节点均会被纳入基线监控范围,下游依赖则不关注。保障节点支持物理任务和逻辑表字段两种。

保障产出时间

业务对数据链路的要求时间,也是保障的末节点可以接受的数据最晚完成时间,一般和业务场景相关。如果到了这个时间点基线保障节点未全部产出,则会触发基线破线告警。

余量

用户预留处理可能产生的异常问题的时长,即预警时间-预计产出时间的时间差,是一个任务/资产异常的警戒程度的体现。

预警时间

即基线预警消息发送时间。如果推算到这个时间点基线保障的末节点无法全部产出,则会触发基线预警告警,基线存在破线风险。

破线时间

即基线破线告警消息发送时间。如果推算到这个时间点基线保障的末节点无法全部产出,则会触发基线破线告警。

关键路径

影响基线任务产出的多条路径中,运行耗时最长的路径。

关键实例

关键路径上最开始一层未运行成功的实例,及阻断实例。

基线事件

如果基线链路中单个任务(包括保障末节点)出错或者对比历史平均运行时间变慢,会触发告警,需要人为介入处理并避免破线。


二、基线核心能力概述

数据业务产出的核心质量指标是及时性与准确性,您可以按照数据业务的重要程度,用质量规则监控来实现内容保障,用基线监控来实现时效保障。基线一旦建立后,会按照调度依赖关系自动识别圈定需要被纳入监控范围的任务,并按照设定的预警时间和承诺时间,在被保障对象数据可能延迟产出的情况下发送基线告警。基线范围内的任务可设置更高优先级以优先分配资源。

核心能力1:自动推算需要纳入基线监控范围的任务

添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工配置成本。

配置基线时,您只需要关注需要保障产出及时性的核心业务数据对应的任务或字段即可,而无需关心整体依赖链路的全部任务,系统将基于任务之间的依赖关系自动推导计算需要纳入监控范围的节点。这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。

核心能力2:关联路径与关键实例识别

基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin提供甘特图功能帮助您快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。

核心能力3:自动推算预计产出时间并触发相应告警

您可以将需要保障数据的预计产出时间配置为基线的“承诺时间”;同时可以根据任务复杂度和业务重要程度,预估任务运行出现异常可能需要的处理时间,将其配置为基线的“余量”,承诺时间-余量即为基线的预警时间。周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。


三、应用场景:保障核心业务数据的产出任务,及时发现异常并预警,降低对业务用数的影响

1、添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工配置成本。

配置时只需要关注需要保障产出及时性的核心业务数据对应的任务或字段即可,而无需关心整体依赖链路的上游节点,系统将基于任务之间的依赖关系自动推导计算需要纳入监控范围的节点。这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。

2、可自定义配置基线整体的预警及破线告警、基线监控范围内单个节点的运行出错或变慢告警,便于及时发现异常并处理

可以将需要保障数据的预计产出时间配置为基线的“保障时间”;同时可以根据任务复杂度和业务重要程度,预估任务运行出现异常可能需要的处理时间,将其配置为基线的“余量”,承诺时间-余量即为基线的预警时间。周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。

此外,还可以给基线链路上的单个任务或字段配置运行变慢或运行出错的告警,便于尽早发现可能出现的异常并处理,保障业务数据能正常产出。

image.png

3、支持查看每条基线的运行详情,如果存在预警或破线的风险,可自动识别定位到关键路径上的关键实例,便于开发运维人员直接处理,减少人工分析定位

image.png

image.png


四、结语

“有了基线功能,我再也不用天天盯着屏幕看核心任务是不是都开始运行了,也不用经常检查是不是漏配了监控,还能提前收到风险预警预留充足的处理时间,大大减少了我的工作量!”运维人员如是说。智能基线,以自动化监控解放人工运维,大大提升了工作效率,为您带来更好的使用体验!欢迎体验哦


Dataphin官网介绍:https://www.lydaas.com/dataphin

Dataphin公开咨询钉钉群:23381533

相关文章
|
5月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
5月前
|
人工智能 自然语言处理 JavaScript
利用MCP Server革新软件测试:更智能、更高效的自动化
MCP Server革新软件测试:通过标准化协议让AI实时感知页面结构,实现自然语言驱动、自适应维护的自动化测试,大幅提升效率,降低脚本开发与维护成本,推动测试左移与持续测试落地。
|
SQL 人工智能 分布式计算
【产品升级】Dataphin V5.3 全新上线:四大能力升级,数据管理更统一、更智能!
V5.3版本,Dataphin推出众多重磅功能:例如,全新的智能应用:X-数据标准、X-数据安全以及智能应用反馈看板;更前沿的数据研发能力:利用SelectDB/Doris/StarRocks查询加速Hive和MaxCompute的离线引擎、全面支持Paimon格式的数据湖构建;资产运营和数据服务持续提效。
595 0
|
5月前
|
数据采集 运维 监控
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。
1016 62
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
|
6月前
|
机器学习/深度学习 人工智能 监控
探索未来智能自动化,一个强大的自动化引擎
决策智能(DI)通过数据分析与自动化技术,协助或替代人类完成决策过程,分为决策支持、决策增强和决策自动化三个等级。决策支持提供分析帮助人类判断;决策增强结合预测数据给出建议;决策自动化则让机器自主完成决策与执行。DA作为DI的一种,适用于高频、标准化任务,提升效率并降低风险。企业可根据任务复杂度与频率选择合适的自动化等级,实现智能化决策管理。
|
8月前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
638 0
|
5月前
|
存储 人工智能 自然语言处理
拔俗AI自动化评价分析系统:让数据说话,让决策更智能
在用户体验为核心的时代,传统评价分析面临效率低、洞察浅等痛点。本文基于阿里云AI与大数据技术,构建“数据-算法-应用”三层智能分析体系,实现多源数据实时接入、情感与主题精准识别、跨模态融合分析及实时预警,助力企业提升运营效率、加速产品迭代、优化服务质量,并已在头部电商平台成功落地,显著提升用户满意度与商业转化。
565 0
|
6月前
|
人工智能 安全 Devops
AI 驱动的 DevOps:通过智能命令执行实现基础设施自动化
本文探讨了如何利用能够根据自然语言提示执行命令、管理基础设施和自动部署的 AI 技术,来革新 DevOps 流程。通过模型上下文协议(MCP),AI 助手不仅能回答问题,还能直接操作终端、编辑文件并管理开发环境,从而简化复杂的 DevOps 任务,提高效率并降低错误率。
559 3
|
7月前
|
SQL 数据管理 API
【产品升级】Dataphin V5.2 全新上线:四大能力升级,数据管理更统一、更智能!
Dataphin是阿里巴巴推出的数据建设与治理平台,提供全链路数据服务,助力企业构建标准化数据资产体系。V5.2版本新增“数据资产一站式运营平台”,引入X-数据管家、X-ETL等智能应用,提升数据运营效率。开发平台全面升级,支持多云复杂环境,强化API行级权限管控,保障数据安全。新版还适配国际化多时区场景,助力企业高效协同,释放数据价值。
510 9
|
8月前
|
JavaScript 前端开发 测试技术
Playwright自动化测试系列课(4) | 异步加载克星:自动等待 vs 智能等待策略深度解析​
本文深度解析Playwright自动化测试中的等待策略,对比自动等待(零配置防御机制)与智能等待(精准控制异步场景)的核心差异。通过实战案例讲解等待机制的选择标准、常见失效原因及调试技巧,帮助开发者有效解决页面异步加载问题,提升测试脚本的稳定性和执行效率。

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin