DataWorks百问百答59:DataWorks离线数据质量规则模版分别代表什么含义?

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: DataWorks离线数据质量规则模版的含义

前言

   上一节数据质量内容中,为大家介绍了如何配置离线数据的质量监控规则。针对离线数据,数据质量内置了43种规则模版,这些模版看似相似,但又各有侧重,它们分别代表什么含义呢?今天带大家看看其中的奥秘。

内置离线规则模版说明

   开始前,先介绍几个基本概念:

  • 样本:当体采集的具体样本值。如规则是“SQL任务表行数,1天波动检测”,其所指的样本就是当天分区的表行数。
  • 基准值:历史样本的对比值。如规则是“SQL任务表行数,1天波动检测”,其所指的基准值就是前一天分区产生的表行数。如规则是“SQL任务表行数,7天平均值波动检测”,其所指的基准值是前7天的表行数的平均值。
       
    目前DQC中仅支持两种校验,一种是波动值校验,另一种是固定值比较,如下所示:
校验方法 校验逻辑
波动值校验 1、如果校验值的绝对值小于或等于橙色阈值,返回正常。
2、如果校验值的绝对值不满足第一种情况,且小于或等于红色阈值,返回橙色报警。
3、如果校验值不满足第二种情况,返回红色报警。
固定值比较 1、根据校验的表达式,计算 opt expect,返回布尔值,opt支持>,<,=,>=,<=,!=。
2、根据上式计算结果,如果为true,返回正常,否则返回红色报警。

字段级模版规则

编号 模板名称 说明
1 字段平均值,相比1天、1周、1个月前波动率 取该字段的平均值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
2 字段汇总值,相比1天、1周、1个月前波动率 取该字段的sum值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
3 字段最小值,相比1天、1周、1个月前波动率 取该字段的最小值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
4 字段最大值,相比1天、1周、1个月前波动率 取该字段的最大值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
5 字段唯一值个数 去重之后的count数与一个期望数字进行比较,即固定值校验。
6 字段唯一值个数,相比1天、1周、1个月前波动率 去重之后的count数,同1天,1周,1个月作比较,即固定值校验
7 表行数,相比1天、1周、1个月前波动率 同1天、一周、一月前采集的表行数作比较,对比波动率。
8 字段空值个数 去该字段的空值数与固定值比较。
9 字段空值个数 / 总行数 空值个数与行总数,计算得到一个比率,与一个固定值做比较,注意:该固定值是一个小数。
10 字段重复值个数 / 总行数 重复值个数与总行数的比率与一个固定值做比较。
11 字段重复值个数 总行数减去去重之后的个数就是字段重复值个数,重复值个数与固定值比较。
12 字段唯一值个数 / 总行数 唯一值个数与总行数的比率与一个固定值做比较。
13 字段平均值,相比1天前波动率 取该字段的平均值,上一次周期比较,计算波动率,然后与阈值比较。
14 字段汇总值,相比1天前波动率 取该字段的sum值, 上一次周期比较,计算波动率,然后与阈值比较。
15 字段最小值,相比1天前波动率 取该字段的最小值,与1天前比较,计算波动率,然后与阈值比较。
16 字段最大值,相比1天前波动率 取该字段的最大值,前一天比较,计算波动率,然后与阈值比较。
17 字段汇总值,相比上一周期波动率 取该字段的sum值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
18 字段最小值,相比上一周期波动率 取该字段的最小值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
19 字段最大值,相比上一周期波动率 取该字段的最大值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
20 字段分组,各离散点count值 字段分组,各离散点count值
21 字段分组,各离散点count值,相比1天、1周、1个月前波动率 字段分组,各离散点count值,相比1天、1周、1个月前波动率
22 字段分组,离散点总数 字段分组,离散点总数
23 字段分组,离散点总数,相比1天前波动率 字段分组,离散点总数,相比1天前波动率

表级模版规则

编号 模板名称 说明
1 相比上一周期,表大小不变(字节) 相比上一周期,表大小不变(字节)
2 相比上一周期,表大小变化(字节) 相比上一周期,表大小变化(字节)
3 相比上一周期,表行数变化 相比上一周期,表行数变化
4 相比上一周期,表行数不变 相比上一周期,表行数不变
5 表大小,相比上一周期差值(字节) 表大小,相比上一周期差值(字节)
6 表行数,相比上一周期差值 基准值为上一周期产生的分区的表行数,对比当天采集的表行数,对比差值。
7 表行数 表行数
8 表空间大小(字节) 表空间大小(字节)
9 表行数,相比1天前差值 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比差值。
10 表空间大小,相比1天前差值(字节) 表空间大小,相比1天前差值(字节)
11 表空间大小,相比1天前波动率 该条模板是监控表大小的波动情况,样本对此值是与昨天额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
12 表空间大小,相比1周前波动率 该条模板是监控表大小的波动情况,样本对此值是与一周前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
13 表空间大小,相比1个月前波动率 该条模板是监控表大小的波动情况,样本对此值是与一月前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
14 表行数,相比最近7天平均值波动率 基准值是最近7天的表行数的平均值。
15 表行数,相比最近30天平均值波动率 基准值是最近30天的表行数的平均值。
16 表行数,相比1天前波动率 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比波动率。
17 表行数,相比1周前波动率 基准值为一周前产生的分区的表行数,对比当天采集的表行数,对比波动率。
18 表行数,相比1个月前波动率 基准值为一月前产生的分区的表行数,对比当天采集的表行数,对比波动率。
19 表行数,相比1天、1周、1个月前、本月1号波动率 同1天、一周、一月前、本月1号采集的表行数作比较,对比波动率。
20 表行数,相比上一周期波动率 基准值为上周产生的分区的表行数,对比当天采集的表行数,对比波动率。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
数据采集 存储 DataWorks
DataWorks产品使用合集之如何查看数据质量中心(DQC)的规则执行记录
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
224 3
|
数据采集 DataWorks 监控
dataworks数据质量
dataworks数据质量
426 1
|
DataWorks 安全 关系型数据库
DataWorks产品使用合集之如何配置基线告警触发规则
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
171 1
|
存储 DataWorks Java
DataWorks产品使用合集之开发离线数仓时,需要多个工作空间的情况有哪些
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何配置数据质量监控
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
184 0
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之如何自定义监控规则
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之如何在DataWorks中实现离线同步多个分表到MC的多级分区表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
224 0
|
10月前
|
DataWorks 监控 数据建模
DataWorks产品体验评测
DataWorks产品体验评测
|
10月前
|
分布式计算 DataWorks 搜索推荐
DataWorks 产品评测与最佳实践探索!
DataWorks 是阿里巴巴推出的一站式智能大数据开发治理平台,内置15年实践经验,集成多种大数据与AI服务。本文通过实际使用角度,探讨其优势、潜力及改进建议。评测涵盖用户画像分析、数据治理、功能表现等方面,适合数字化转型企业参考。
247 1
|
11月前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评

相关产品

  • 大数据开发治理平台 DataWorks
  • 下一篇
    oss云网关配置