DataWorks百问百答59:DataWorks离线数据质量规则模版分别代表什么含义?

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: DataWorks离线数据质量规则模版的含义

前言

   上一节数据质量内容中,为大家介绍了如何配置离线数据的质量监控规则。针对离线数据,数据质量内置了43种规则模版,这些模版看似相似,但又各有侧重,它们分别代表什么含义呢?今天带大家看看其中的奥秘。

内置离线规则模版说明

   开始前,先介绍几个基本概念:

  • 样本:当体采集的具体样本值。如规则是“SQL任务表行数,1天波动检测”,其所指的样本就是当天分区的表行数。
  • 基准值:历史样本的对比值。如规则是“SQL任务表行数,1天波动检测”,其所指的基准值就是前一天分区产生的表行数。如规则是“SQL任务表行数,7天平均值波动检测”,其所指的基准值是前7天的表行数的平均值。
       
    目前DQC中仅支持两种校验,一种是波动值校验,另一种是固定值比较,如下所示:
校验方法 校验逻辑
波动值校验 1、如果校验值的绝对值小于或等于橙色阈值,返回正常。
2、如果校验值的绝对值不满足第一种情况,且小于或等于红色阈值,返回橙色报警。
3、如果校验值不满足第二种情况,返回红色报警。
固定值比较 1、根据校验的表达式,计算 opt expect,返回布尔值,opt支持>,<,=,>=,<=,!=。
2、根据上式计算结果,如果为true,返回正常,否则返回红色报警。

字段级模版规则

编号 模板名称 说明
1 字段平均值,相比1天、1周、1个月前波动率 取该字段的平均值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
2 字段汇总值,相比1天、1周、1个月前波动率 取该字段的sum值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
3 字段最小值,相比1天、1周、1个月前波动率 取该字段的最小值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
4 字段最大值,相比1天、1周、1个月前波动率 取该字段的最大值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
5 字段唯一值个数 去重之后的count数与一个期望数字进行比较,即固定值校验。
6 字段唯一值个数,相比1天、1周、1个月前波动率 去重之后的count数,同1天,1周,1个月作比较,即固定值校验
7 表行数,相比1天、1周、1个月前波动率 同1天、一周、一月前采集的表行数作比较,对比波动率。
8 字段空值个数 去该字段的空值数与固定值比较。
9 字段空值个数 / 总行数 空值个数与行总数,计算得到一个比率,与一个固定值做比较,注意:该固定值是一个小数。
10 字段重复值个数 / 总行数 重复值个数与总行数的比率与一个固定值做比较。
11 字段重复值个数 总行数减去去重之后的个数就是字段重复值个数,重复值个数与固定值比较。
12 字段唯一值个数 / 总行数 唯一值个数与总行数的比率与一个固定值做比较。
13 字段平均值,相比1天前波动率 取该字段的平均值,上一次周期比较,计算波动率,然后与阈值比较。
14 字段汇总值,相比1天前波动率 取该字段的sum值, 上一次周期比较,计算波动率,然后与阈值比较。
15 字段最小值,相比1天前波动率 取该字段的最小值,与1天前比较,计算波动率,然后与阈值比较。
16 字段最大值,相比1天前波动率 取该字段的最大值,前一天比较,计算波动率,然后与阈值比较。
17 字段汇总值,相比上一周期波动率 取该字段的sum值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
18 字段最小值,相比上一周期波动率 取该字段的最小值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
19 字段最大值,相比上一周期波动率 取该字段的最大值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
20 字段分组,各离散点count值 字段分组,各离散点count值
21 字段分组,各离散点count值,相比1天、1周、1个月前波动率 字段分组,各离散点count值,相比1天、1周、1个月前波动率
22 字段分组,离散点总数 字段分组,离散点总数
23 字段分组,离散点总数,相比1天前波动率 字段分组,离散点总数,相比1天前波动率

表级模版规则

编号 模板名称 说明
1 相比上一周期,表大小不变(字节) 相比上一周期,表大小不变(字节)
2 相比上一周期,表大小变化(字节) 相比上一周期,表大小变化(字节)
3 相比上一周期,表行数变化 相比上一周期,表行数变化
4 相比上一周期,表行数不变 相比上一周期,表行数不变
5 表大小,相比上一周期差值(字节) 表大小,相比上一周期差值(字节)
6 表行数,相比上一周期差值 基准值为上一周期产生的分区的表行数,对比当天采集的表行数,对比差值。
7 表行数 表行数
8 表空间大小(字节) 表空间大小(字节)
9 表行数,相比1天前差值 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比差值。
10 表空间大小,相比1天前差值(字节) 表空间大小,相比1天前差值(字节)
11 表空间大小,相比1天前波动率 该条模板是监控表大小的波动情况,样本对此值是与昨天额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
12 表空间大小,相比1周前波动率 该条模板是监控表大小的波动情况,样本对此值是与一周前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
13 表空间大小,相比1个月前波动率 该条模板是监控表大小的波动情况,样本对此值是与一月前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
14 表行数,相比最近7天平均值波动率 基准值是最近7天的表行数的平均值。
15 表行数,相比最近30天平均值波动率 基准值是最近30天的表行数的平均值。
16 表行数,相比1天前波动率 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比波动率。
17 表行数,相比1周前波动率 基准值为一周前产生的分区的表行数,对比当天采集的表行数,对比波动率。
18 表行数,相比1个月前波动率 基准值为一月前产生的分区的表行数,对比当天采集的表行数,对比波动率。
19 表行数,相比1天、1周、1个月前、本月1号波动率 同1天、一周、一月前、本月1号采集的表行数作比较,对比波动率。
20 表行数,相比上一周期波动率 基准值为上周产生的分区的表行数,对比当天采集的表行数,对比波动率。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标 &nbsp;通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群 &nbsp;企业数据仓库开发人员 &nbsp;大数据平台开发人员 &nbsp;数据分析师 &nbsp;大数据运维人员 &nbsp;对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
3月前
|
数据采集 存储 DataWorks
DataWorks产品使用合集之如何查看数据质量中心(DQC)的规则执行记录
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
数据采集 DataWorks 监控
dataworks数据质量
dataworks数据质量
124 1
|
3月前
|
DataWorks 安全 关系型数据库
DataWorks产品使用合集之如何配置基线告警触发规则
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何配置数据质量监控
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之如何自定义监控规则
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 DataWorks Java
DataWorks产品使用合集之开发离线数仓时,需要多个工作空间的情况有哪些
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之如何在DataWorks中实现离线同步多个分表到MC的多级分区表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
运维 DataWorks 监控
DataWorks产品使用合集之如何自定义UDTF
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks