DataWorks百问百答59:DataWorks离线数据质量规则模版分别代表什么含义?-阿里云开发者社区

开发者社区> DataWorks> 正文

DataWorks百问百答59:DataWorks离线数据质量规则模版分别代表什么含义?

简介: DataWorks离线数据质量规则模版的含义

前言

   上一节数据质量内容中,为大家介绍了如何配置离线数据的质量监控规则。针对离线数据,数据质量内置了43种规则模版,这些模版看似相似,但又各有侧重,它们分别代表什么含义呢?今天带大家看看其中的奥秘。

内置离线规则模版说明

   开始前,先介绍几个基本概念:

  • 样本:当体采集的具体样本值。如规则是“SQL任务表行数,1天波动检测”,其所指的样本就是当天分区的表行数。
  • 基准值:历史样本的对比值。如规则是“SQL任务表行数,1天波动检测”,其所指的基准值就是前一天分区产生的表行数。如规则是“SQL任务表行数,7天平均值波动检测”,其所指的基准值是前7天的表行数的平均值。
       
    目前DQC中仅支持两种校验,一种是波动值校验,另一种是固定值比较,如下所示:
校验方法 校验逻辑
波动值校验 1、如果校验值的绝对值小于或等于橙色阈值,返回正常。
2、如果校验值的绝对值不满足第一种情况,且小于或等于红色阈值,返回橙色报警。
3、如果校验值不满足第二种情况,返回红色报警。
固定值比较 1、根据校验的表达式,计算 opt expect,返回布尔值,opt支持>,<,=,>=,<=,!=。
2、根据上式计算结果,如果为true,返回正常,否则返回红色报警。

字段级模版规则

编号 模板名称 说明
1 字段平均值,相比1天、1周、1个月前波动率 取该字段的平均值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
2 字段汇总值,相比1天、1周、1个月前波动率 取该字段的sum值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
3 字段最小值,相比1天、1周、1个月前波动率 取该字段的最小值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
4 字段最大值,相比1天、1周、1个月前波动率 取该字段的最大值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
5 字段唯一值个数 去重之后的count数与一个期望数字进行比较,即固定值校验。
6 字段唯一值个数,相比1天、1周、1个月前波动率 去重之后的count数,同1天,1周,1个月作比较,即固定值校验
7 表行数,相比1天、1周、1个月前波动率 同1天、一周、一月前采集的表行数作比较,对比波动率。
8 字段空值个数 去该字段的空值数与固定值比较。
9 字段空值个数 / 总行数 空值个数与行总数,计算得到一个比率,与一个固定值做比较,注意:该固定值是一个小数。
10 字段重复值个数 / 总行数 重复值个数与总行数的比率与一个固定值做比较。
11 字段重复值个数 总行数减去去重之后的个数就是字段重复值个数,重复值个数与固定值比较。
12 字段唯一值个数 / 总行数 唯一值个数与总行数的比率与一个固定值做比较。
13 字段平均值,相比1天前波动率 取该字段的平均值,上一次周期比较,计算波动率,然后与阈值比较。
14 字段汇总值,相比1天前波动率 取该字段的sum值, 上一次周期比较,计算波动率,然后与阈值比较。
15 字段最小值,相比1天前波动率 取该字段的最小值,与1天前比较,计算波动率,然后与阈值比较。
16 字段最大值,相比1天前波动率 取该字段的最大值,前一天比较,计算波动率,然后与阈值比较。
17 字段汇总值,相比上一周期波动率 取该字段的sum值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
18 字段最小值,相比上一周期波动率 取该字段的最小值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
19 字段最大值,相比上一周期波动率 取该字段的最大值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
20 字段分组,各离散点count值 字段分组,各离散点count值
21 字段分组,各离散点count值,相比1天、1周、1个月前波动率 字段分组,各离散点count值,相比1天、1周、1个月前波动率
22 字段分组,离散点总数 字段分组,离散点总数
23 字段分组,离散点总数,相比1天前波动率 字段分组,离散点总数,相比1天前波动率

表级模版规则

编号 模板名称 说明
1 相比上一周期,表大小不变(字节) 相比上一周期,表大小不变(字节)
2 相比上一周期,表大小变化(字节) 相比上一周期,表大小变化(字节)
3 相比上一周期,表行数变化 相比上一周期,表行数变化
4 相比上一周期,表行数不变 相比上一周期,表行数不变
5 表大小,相比上一周期差值(字节) 表大小,相比上一周期差值(字节)
6 表行数,相比上一周期差值 基准值为上一周期产生的分区的表行数,对比当天采集的表行数,对比差值。
7 表行数 表行数
8 表空间大小(字节) 表空间大小(字节)
9 表行数,相比1天前差值 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比差值。
10 表空间大小,相比1天前差值(字节) 表空间大小,相比1天前差值(字节)
11 表空间大小,相比1天前波动率 该条模板是监控表大小的波动情况,样本对此值是与昨天额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
12 表空间大小,相比1周前波动率 该条模板是监控表大小的波动情况,样本对此值是与一周前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
13 表空间大小,相比1个月前波动率 该条模板是监控表大小的波动情况,样本对此值是与一月前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
14 表行数,相比最近7天平均值波动率 基准值是最近7天的表行数的平均值。
15 表行数,相比最近30天平均值波动率 基准值是最近30天的表行数的平均值。
16 表行数,相比1天前波动率 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比波动率。
17 表行数,相比1周前波动率 基准值为一周前产生的分区的表行数,对比当天采集的表行数,对比波动率。
18 表行数,相比1个月前波动率 基准值为一月前产生的分区的表行数,对比当天采集的表行数,对比波动率。
19 表行数,相比1天、1周、1个月前、本月1号波动率 同1天、一周、一月前、本月1号采集的表行数作比较,对比波动率。
20 表行数,相比上一周期波动率 基准值为上周产生的分区的表行数,对比当天采集的表行数,对比波动率。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
DataWorks
使用钉钉扫一扫加入圈子
+ 订阅

DataWorks作为飞天大数据平台操作系统,对接各种大数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系。 从2009年飞天大数据平台写下第一行代码开始,DataWorks历经10年发展,形成一套成熟的产品功能体系,满足企业数据中台搭建需求。

官方博客
DataWorks产品官网