智能基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低配置成本、避免无效报警、自动监控所有重要任务。
一、相关概念介绍
概念 |
释义 |
基线负责人 |
负责配置基线的保障节点、保障时间及告警配置等,为整条基线按时产出正确的数据负责,通常会接收基线预警和破线的告警消息。 |
基线任务负责人 | 每条基线中每个任务的负责人被称为基线任务负责人(即任务运维负责人),主要保障单个任务不影响整条基线按时产出正确的数据,一般是被动加入基线维护的,通常会接收基线上单个任务运行出错或变慢的告警消息。 |
基线优先级 |
|
基线保障节点 |
一个基线至少有一个需要保障的末端节点,可以添加多个保障节点,保障节点的所有上游依赖节点均会被纳入基线监控范围,下游依赖则不关注。保障节点支持物理任务和逻辑表字段两种。 |
保障产出时间 |
业务对数据链路的要求时间,也是保障的末节点可以接受的数据最晚完成时间,一般和业务场景相关。如果到了这个时间点基线保障节点未全部产出,则会触发基线破线告警。 |
余量 |
用户预留处理可能产生的异常问题的时长,即预警时间-预计产出时间的时间差,是一个任务/资产异常的警戒程度的体现。 |
预警时间 |
即基线预警消息发送时间。如果推算到这个时间点基线保障的末节点无法全部产出,则会触发基线预警告警,基线存在破线风险。 |
破线时间 |
即基线破线告警消息发送时间。如果推算到这个时间点基线保障的末节点无法全部产出,则会触发基线破线告警。 |
关键路径 |
影响基线任务产出的多条路径中,运行耗时最长的路径。 |
关键实例 |
关键路径上最开始一层未运行成功的实例,及阻断实例。 |
基线事件 |
如果基线链路中单个任务(包括保障末节点)出错或者对比历史平均运行时间变慢,会触发告警,需要人为介入处理并避免破线。 |
二、基线核心能力概述
数据业务产出的核心质量指标是及时性与准确性,您可以按照数据业务的重要程度,用质量规则监控来实现内容保障,用基线监控来实现时效保障。基线一旦建立后,会按照调度依赖关系自动识别圈定需要被纳入监控范围的任务,并按照设定的预警时间和承诺时间,在被保障对象数据可能延迟产出的情况下发送基线告警。基线范围内的任务可设置更高优先级以优先分配资源。
核心能力1:自动推算需要纳入基线监控范围的任务
添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工配置成本。
配置基线时,您只需要关注需要保障产出及时性的核心业务数据对应的任务或字段即可,而无需关心整体依赖链路的全部任务,系统将基于任务之间的依赖关系自动推导计算需要纳入监控范围的节点。这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。
核心能力2:关联路径与关键实例识别
基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin提供甘特图功能帮助您快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。
核心能力3:自动推算预计产出时间并触发相应告警
您可以将需要保障数据的预计产出时间配置为基线的“承诺时间”;同时可以根据任务复杂度和业务重要程度,预估任务运行出现异常可能需要的处理时间,将其配置为基线的“余量”,承诺时间-余量即为基线的预警时间。周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。
三、应用场景:保障核心业务数据的产出任务,及时发现异常并预警,降低对业务用数的影响
1、添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,降低人工配置成本。
配置时只需要关注需要保障产出及时性的核心业务数据对应的任务或字段即可,而无需关心整体依赖链路的上游节点,系统将基于任务之间的依赖关系自动推导计算需要纳入监控范围的节点。这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。
2、可自定义配置基线整体的预警及破线告警、基线监控范围内单个节点的运行出错或变慢告警,便于及时发现异常并处理。
可以将需要保障数据的预计产出时间配置为基线的“保障时间”;同时可以根据任务复杂度和业务重要程度,预估任务运行出现异常可能需要的处理时间,将其配置为基线的“余量”,承诺时间-余量即为基线的预警时间。周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。
此外,还可以给基线链路上的单个任务或字段配置运行变慢或运行出错的告警,便于尽早发现可能出现的异常并处理,保障业务数据能正常产出。
3、支持查看每条基线的运行详情,如果存在预警或破线的风险,可自动识别定位到关键路径上的关键实例,便于开发运维人员直接处理,减少人工分析定位。
四、结语
“有了基线功能,我再也不用天天盯着屏幕看核心任务是不是都开始运行了,也不用经常检查是不是漏配了监控,还能提前收到风险预警预留充足的处理时间,大大减少了我的工作量!”运维人员如是说。智能基线,以自动化监控解放人工运维,大大提升了工作效率,为您带来更好的使用体验!欢迎体验哦
Dataphin官网介绍:https://www.lydaas.com/dataphin
Dataphin公开咨询钉钉群:23381533