前言
上一节数据质量内容中,为大家介绍了如何配置离线数据的质量监控规则。针对离线数据,数据质量内置了43种规则模版,这些模版看似相似,但又各有侧重,它们分别代表什么含义呢?今天带大家看看其中的奥秘。
内置离线规则模版说明
开始前,先介绍几个基本概念:
- 样本:当体采集的具体样本值。如规则是“SQL任务表行数,1天波动检测”,其所指的样本就是当天分区的表行数。
- 基准值:历史样本的对比值。如规则是“SQL任务表行数,1天波动检测”,其所指的基准值就是前一天分区产生的表行数。如规则是“SQL任务表行数,7天平均值波动检测”,其所指的基准值是前7天的表行数的平均值。
目前DQC中仅支持两种校验,一种是波动值校验,另一种是固定值比较,如下所示:
校验方法 | 校验逻辑 |
---|---|
波动值校验 | 1、如果校验值的绝对值小于或等于橙色阈值,返回正常。 2、如果校验值的绝对值不满足第一种情况,且小于或等于红色阈值,返回橙色报警。 3、如果校验值不满足第二种情况,返回红色报警。 |
固定值比较 | 1、根据校验的表达式,计算 opt expect,返回布尔值,opt支持>,<,=,>=,<=,!=。 2、根据上式计算结果,如果为true,返回正常,否则返回红色报警。 |
字段级模版规则
编号 | 模板名称 | 说明 |
---|---|---|
1 | 字段平均值,相比1天、1周、1个月前波动率 | 取该字段的平均值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。 |
2 | 字段汇总值,相比1天、1周、1个月前波动率 | 取该字段的sum值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。 |
3 | 字段最小值,相比1天、1周、1个月前波动率 | 取该字段的最小值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。 |
4 | 字段最大值,相比1天、1周、1个月前波动率 | 取该字段的最大值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。 |
5 | 字段唯一值个数 | 去重之后的count数与一个期望数字进行比较,即固定值校验。 |
6 | 字段唯一值个数,相比1天、1周、1个月前波动率 | 去重之后的count数,同1天,1周,1个月作比较,即固定值校验 |
7 | 表行数,相比1天、1周、1个月前波动率 | 同1天、一周、一月前采集的表行数作比较,对比波动率。 |
8 | 字段空值个数 | 去该字段的空值数与固定值比较。 |
9 | 字段空值个数 / 总行数 | 空值个数与行总数,计算得到一个比率,与一个固定值做比较,注意:该固定值是一个小数。 |
10 | 字段重复值个数 / 总行数 | 重复值个数与总行数的比率与一个固定值做比较。 |
11 | 字段重复值个数 | 总行数减去去重之后的个数就是字段重复值个数,重复值个数与固定值比较。 |
12 | 字段唯一值个数 / 总行数 | 唯一值个数与总行数的比率与一个固定值做比较。 |
13 | 字段平均值,相比1天前波动率 | 取该字段的平均值,上一次周期比较,计算波动率,然后与阈值比较。 |
14 | 字段汇总值,相比1天前波动率 | 取该字段的sum值, 上一次周期比较,计算波动率,然后与阈值比较。 |
15 | 字段最小值,相比1天前波动率 | 取该字段的最小值,与1天前比较,计算波动率,然后与阈值比较。 |
16 | 字段最大值,相比1天前波动率 | 取该字段的最大值,前一天比较,计算波动率,然后与阈值比较。 |
17 | 字段汇总值,相比上一周期波动率 | 取该字段的sum值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。 |
18 | 字段最小值,相比上一周期波动率 | 取该字段的最小值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。 |
19 | 字段最大值,相比上一周期波动率 | 取该字段的最大值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。 |
20 | 字段分组,各离散点count值 | 字段分组,各离散点count值 |
21 | 字段分组,各离散点count值,相比1天、1周、1个月前波动率 | 字段分组,各离散点count值,相比1天、1周、1个月前波动率 |
22 | 字段分组,离散点总数 | 字段分组,离散点总数 |
23 | 字段分组,离散点总数,相比1天前波动率 | 字段分组,离散点总数,相比1天前波动率 |
表级模版规则
编号 | 模板名称 | 说明 |
---|---|---|
1 | 相比上一周期,表大小不变(字节) | 相比上一周期,表大小不变(字节) |
2 | 相比上一周期,表大小变化(字节) | 相比上一周期,表大小变化(字节) |
3 | 相比上一周期,表行数变化 | 相比上一周期,表行数变化 |
4 | 相比上一周期,表行数不变 | 相比上一周期,表行数不变 |
5 | 表大小,相比上一周期差值(字节) | 表大小,相比上一周期差值(字节) |
6 | 表行数,相比上一周期差值 | 基准值为上一周期产生的分区的表行数,对比当天采集的表行数,对比差值。 |
7 | 表行数 | 表行数 |
8 | 表空间大小(字节) | 表空间大小(字节) |
9 | 表行数,相比1天前差值 | 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比差值。 |
10 | 表空间大小,相比1天前差值(字节) | 表空间大小,相比1天前差值(字节) |
11 | 表空间大小,相比1天前波动率 | 该条模板是监控表大小的波动情况,样本对此值是与昨天额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。 |
12 | 表空间大小,相比1周前波动率 | 该条模板是监控表大小的波动情况,样本对此值是与一周前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。 |
13 | 表空间大小,相比1个月前波动率 | 该条模板是监控表大小的波动情况,样本对此值是与一月前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。 |
14 | 表行数,相比最近7天平均值波动率 | 基准值是最近7天的表行数的平均值。 |
15 | 表行数,相比最近30天平均值波动率 | 基准值是最近30天的表行数的平均值。 |
16 | 表行数,相比1天前波动率 | 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比波动率。 |
17 | 表行数,相比1周前波动率 | 基准值为一周前产生的分区的表行数,对比当天采集的表行数,对比波动率。 |
18 | 表行数,相比1个月前波动率 | 基准值为一月前产生的分区的表行数,对比当天采集的表行数,对比波动率。 |
19 | 表行数,相比1天、1周、1个月前、本月1号波动率 | 同1天、一周、一月前、本月1号采集的表行数作比较,对比波动率。 |
20 | 表行数,相比上一周期波动率 | 基准值为上周产生的分区的表行数,对比当天采集的表行数,对比波动率。 |
DataWorks百问百答历史记录 请点击这里查看>>
更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】