一、监控模块
1:资源监控
1.独享调度资源组监控&独享数据集成资源组规则
1:资源利用率监控规则
1):利用率大于80%并持续15分钟时,触发报警。
2:等实例资源数
1):资源组等待实例数大于10个并持续30分钟,触发报警。
2:任务监控
1.任务状态运行监控
1)出错:周期调度任务或实时计算任务运行出错,触发报警。
2)重跑出错:周期调度任务出错自动重试三次,重跑出错 触发报警。
3)冻结:周期调度任务实例冻结,触发告警。
4)空跑:周期调度任务实例空跑,触发告警。
2.任务运行时间监控
1)超时:周期调度任务运行时间超90分钟,触发告警。
2)周期未完成:
1:核心天任务,每日6点如未完成,触发报警。
2:小时任务,每小时30分未完成,触发报警。
3:质量监控
注:质量监控,下文为数据层面的监控,业务侧有需求可对具体的字段加对应监控规则。
1:表监控规则
1):表行数为空,表行数为空,触发监控告警。
2):表缺失责任人,触发监控告警。
2:字段监控规则
1):维度字段为空,触发报警。
2):唯一值个数,固定数,示例:枚举值,0:无效,1:有效,99:未确定。 期望值大于3,触发报警。
3):空值个数/总行数,固定值。示例:入仓数据,金额数据大于0.05,触发报警。
4:基线监控规则
1:天基线(任务节点)
1):任务优先级7及以上,承诺时间:每天07:00前完成输出回流。
2:小时基线(任务节点)
1):任务优先级7及以上,承诺时间:每小时20分内完成数据回流;
5:规则
节点孤立:系统内置报警规则,孤立节点产生后会自动报警。
节点成环:系统内置报警规则,生产环境默认开启,无需关闭。