《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——二、Dataphin 演进之路:产品大图及核心功能详解——(二)研发:集成、建模、发布、运维(5) https://developer.aliyun.com/article/1229660?groupCode=dataphin
b) 如何及时发现异常?
Dataphin 支持给生产环境的任务配置监控告警规则,帮助您及时了解任务运行动态,并监控异常任务,降低对下游业务的影响。
Dataphin 支持多种监控能力,包括智能基线监控、离线任务&字段监控及实时任务监控。
智能基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低配置成本、避免无效报警、自动监控所有重要任务,主要提供以下能力:
• 核心能力 1:自动推算需要纳入基线监控范围的任务
添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。
• 核心能力 2:关联路径与关键实例识别
基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin 提供甘特图功能帮助您快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。
• 核心能力 3:自动推算预计产出时间并触发相应告警
周期运行过程中,系统将根据基线链路上每个节点最近 7 天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。
此外,Dataphin 也支持针对单个任务的监控,以离线监控为例,支持以下几种监控场景:完成、出错、运行超时、未完成。
除了监控场景,Dataphin 也支持添加多个接收人,可给不同的接收人配置不同的接收方式,以实现区别告警。例如:
• 为值班人员配置电话告警,这样能在第一时间及时接收到告警信息并处理,尽量减少对下游任务的影响。
• 为任务责任人配置短信或邮件告警,这样责任人能了解所负责的任务的运行概况,但是不用第一时间进行处理。
• 为项目管理员配置钉钉群机器人告警,这样项目管理员能通过群消息了解所管理的项目全局任务的整体运行情况,便于后续统计分析。
Dataphin 特有的逻辑运维能力,支持针对逻辑表任务以字段视角进行监控配置,可通过字段更快捷直观的分析异常任务对下游业务的影响。此外,支持根据任务优先级和运行时间,设置不同的监控时间段、告警频率等,减少运维人员的人工操作成本,实现灵活的自动化告警。
《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——二、Dataphin 演进之路:产品大图及核心功能详解——(二)研发:集成、建模、发布、运维(7) https://developer.aliyun.com/article/1229656?groupCode=dataphin