DataWorks百问百答59:DataWorks离线数据质量规则模版分别代表什么含义?

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: DataWorks离线数据质量规则模版的含义

前言

   上一节数据质量内容中,为大家介绍了如何配置离线数据的质量监控规则。针对离线数据,数据质量内置了43种规则模版,这些模版看似相似,但又各有侧重,它们分别代表什么含义呢?今天带大家看看其中的奥秘。

内置离线规则模版说明

   开始前,先介绍几个基本概念:

  • 样本:当体采集的具体样本值。如规则是“SQL任务表行数,1天波动检测”,其所指的样本就是当天分区的表行数。
  • 基准值:历史样本的对比值。如规则是“SQL任务表行数,1天波动检测”,其所指的基准值就是前一天分区产生的表行数。如规则是“SQL任务表行数,7天平均值波动检测”,其所指的基准值是前7天的表行数的平均值。
       
    目前DQC中仅支持两种校验,一种是波动值校验,另一种是固定值比较,如下所示:
校验方法 校验逻辑
波动值校验 1、如果校验值的绝对值小于或等于橙色阈值,返回正常。
2、如果校验值的绝对值不满足第一种情况,且小于或等于红色阈值,返回橙色报警。
3、如果校验值不满足第二种情况,返回红色报警。
固定值比较 1、根据校验的表达式,计算 opt expect,返回布尔值,opt支持>,<,=,>=,<=,!=。
2、根据上式计算结果,如果为true,返回正常,否则返回红色报警。

字段级模版规则

编号 模板名称 说明
1 字段平均值,相比1天、1周、1个月前波动率 取该字段的平均值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
2 字段汇总值,相比1天、1周、1个月前波动率 取该字段的sum值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
3 字段最小值,相比1天、1周、1个月前波动率 取该字段的最小值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
4 字段最大值,相比1天、1周、1个月前波动率 取该字段的最大值,同1天,7天,一个月周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
5 字段唯一值个数 去重之后的count数与一个期望数字进行比较,即固定值校验。
6 字段唯一值个数,相比1天、1周、1个月前波动率 去重之后的count数,同1天,1周,1个月作比较,即固定值校验
7 表行数,相比1天、1周、1个月前波动率 同1天、一周、一月前采集的表行数作比较,对比波动率。
8 字段空值个数 去该字段的空值数与固定值比较。
9 字段空值个数 / 总行数 空值个数与行总数,计算得到一个比率,与一个固定值做比较,注意:该固定值是一个小数。
10 字段重复值个数 / 总行数 重复值个数与总行数的比率与一个固定值做比较。
11 字段重复值个数 总行数减去去重之后的个数就是字段重复值个数,重复值个数与固定值比较。
12 字段唯一值个数 / 总行数 唯一值个数与总行数的比率与一个固定值做比较。
13 字段平均值,相比1天前波动率 取该字段的平均值,上一次周期比较,计算波动率,然后与阈值比较。
14 字段汇总值,相比1天前波动率 取该字段的sum值, 上一次周期比较,计算波动率,然后与阈值比较。
15 字段最小值,相比1天前波动率 取该字段的最小值,与1天前比较,计算波动率,然后与阈值比较。
16 字段最大值,相比1天前波动率 取该字段的最大值,前一天比较,计算波动率,然后与阈值比较。
17 字段汇总值,相比上一周期波动率 取该字段的sum值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
18 字段最小值,相比上一周期波动率 取该字段的最小值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
19 字段最大值,相比上一周期波动率 取该字段的最大值,同上一周期比较,计算波动率,然后与阈值比较,只要有一个报警就报警出来。
20 字段分组,各离散点count值 字段分组,各离散点count值
21 字段分组,各离散点count值,相比1天、1周、1个月前波动率 字段分组,各离散点count值,相比1天、1周、1个月前波动率
22 字段分组,离散点总数 字段分组,离散点总数
23 字段分组,离散点总数,相比1天前波动率 字段分组,离散点总数,相比1天前波动率

表级模版规则

编号 模板名称 说明
1 相比上一周期,表大小不变(字节) 相比上一周期,表大小不变(字节)
2 相比上一周期,表大小变化(字节) 相比上一周期,表大小变化(字节)
3 相比上一周期,表行数变化 相比上一周期,表行数变化
4 相比上一周期,表行数不变 相比上一周期,表行数不变
5 表大小,相比上一周期差值(字节) 表大小,相比上一周期差值(字节)
6 表行数,相比上一周期差值 基准值为上一周期产生的分区的表行数,对比当天采集的表行数,对比差值。
7 表行数 表行数
8 表空间大小(字节) 表空间大小(字节)
9 表行数,相比1天前差值 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比差值。
10 表空间大小,相比1天前差值(字节) 表空间大小,相比1天前差值(字节)
11 表空间大小,相比1天前波动率 该条模板是监控表大小的波动情况,样本对此值是与昨天额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
12 表空间大小,相比1周前波动率 该条模板是监控表大小的波动情况,样本对此值是与一周前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
13 表空间大小,相比1个月前波动率 该条模板是监控表大小的波动情况,样本对此值是与一月前额度样本做比较,如填写橙色阈值为5%,红色阈值为10%,则当波动率大于5%小于等于10%的时候会橙色报警,当大于10%的时候会红色报警。
14 表行数,相比最近7天平均值波动率 基准值是最近7天的表行数的平均值。
15 表行数,相比最近30天平均值波动率 基准值是最近30天的表行数的平均值。
16 表行数,相比1天前波动率 基准值为昨天产生的分区的表行数,对比当天采集的表行数,对比波动率。
17 表行数,相比1周前波动率 基准值为一周前产生的分区的表行数,对比当天采集的表行数,对比波动率。
18 表行数,相比1个月前波动率 基准值为一月前产生的分区的表行数,对比当天采集的表行数,对比波动率。
19 表行数,相比1天、1周、1个月前、本月1号波动率 同1天、一周、一月前、本月1号采集的表行数作比较,对比波动率。
20 表行数,相比上一周期波动率 基准值为上周产生的分区的表行数,对比当天采集的表行数,对比波动率。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标 &nbsp;通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群 &nbsp;企业数据仓库开发人员 &nbsp;大数据平台开发人员 &nbsp;数据分析师 &nbsp;大数据运维人员 &nbsp;对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks提供的数据同步类型不仅包括整库离线同步
【2月更文挑战第31天】DataWorks提供的数据同步类型不仅包括整库离线同步
24 8
|
13天前
|
数据采集 SQL 存储
DataWorks产品使用合集之DataWorks配置数据质量监控如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
35 4
|
13天前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之在DataWorks数据质量中,判断订阅成功的标准如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
32 0
|
13天前
|
数据采集 SQL 分布式计算
DataWorks产品使用合集之DataWorks数据质量里面模版规则 '表行数,上周期差值', 小时任务的周期使用的时间是 cyctime 还是 bizdate 如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
19 0
|
13天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之DataWorks中有类似于Snippets的代码块模版如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
19 0
|
13天前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之在 DataWorks 中,离线同步的一键生成目标表结构功能不能识别 MongoDB 数据源如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 0
|
13天前
|
DataWorks Java 数据库连接
DataWorks操作报错合集之dataworks 离线同步任务 出现 “实时生成的过期实例” 如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
31 0
|
13天前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之DataWorks 数据集成中的数据源管理和管理空间的数据源之间的关系是怎样的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
24 0
|
13天前
|
运维 DataWorks 关系型数据库
DataWorks产品使用合集之DataWorks中如何提升运维中心实时同步任务的运行速度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
25 1
|
13天前
|
SQL JSON 分布式计算
DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
23 0

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    30
  • 2
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    24
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    31
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    26
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    25
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    26
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    33
  • 8
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    27
  • 9
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    30
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    24
  • 相关产品

  • 大数据开发治理平台 DataWorks