DataWorks百问百答54:设置了数据质量校验,但是未触发校验怎么办?

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 数据质量之未触发校验

本周为大家解析设置了数据质量校验,但是未处触发校验的情况

触发校验前提:

DQC必须要在调度触发任务,并且对表数据有修改之后才可以触发,例如:
1、insert overwrite table xxxxxxx
2、create table as select xxxxxxx

设置了校验,也有对表数据修改的操作,但未触发校验的日志表现情况:

image.png
触发了DQC Hook,但实际并没有进行数据质量校验的情况,是未触发实际的校验,一般有以下几种情况:

1、如果是SQL级别的校验,在触发时,日志中打印的业务日期set SKYNET_BIZDATE=20190826;必须和insert的分区相符,才可以触发。类似如下截图所示,业务日期和触发分区不符,必须改成任务级别才可以。

2、用户在分区表达式中设置了对当前时间前一天的校验,但在运行日志中,校验的又是当前时间的分区,会出现匹配不上分区的情况,不会触发规则校验,这时候,需要把分区表达式中改为对当前时间的校验,即:ds=${yyyymmdd}/xxxxxxxx/xxxx/xxx…… 
下图中的另一个情况是:用户设置了多级分区,但日志中请求DQC的参数数据显示的分区顺序,没有和设置的分区表达式中的分区顺序匹配上,这也是一种不会触发校验的情况。
image.png
image.png

3、odps表有二级分区,但在规则配置的分区表达式中,只设置了一级分区表达式,同样也会因为没有匹配上分区,而不触发校验。

分区表达式

分区表达式一定要写到最小粒度,而DQC支持的最小粒度为天。例如:我odps表有二级分区,ds=yyyymmdd hh=hh24,那么在写分区表达式时,一定要指定到二级分区hh,否则无法触发校验。
其中弹内需要使用正则表达式来编写,弹内、公有云多级分区表达式如下所示:

弹内多级分区写法:ds=${yyyymmdd-1}/hh=<[a-zA-Z0-9_-]*>
公有云多级分区写法:ds=$[yyyymmdd]/hh=$[hh24]
注意:弹内分区表达式符号使用“{}”,公有云符号使用“[]”。

总结:

触发数据质量规则校验,必须要对odps表数据有修改(insert、create)之后、表的分区也和规则设置的分区表达式匹配上方可触发哦。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标 &nbsp;通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群 &nbsp;企业数据仓库开发人员 &nbsp;大数据平台开发人员 &nbsp;数据分析师 &nbsp;大数据运维人员 &nbsp;对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
25天前
|
DataWorks 机器人 调度
DataWorks的集成任务并发度设置主要影响的是**调度资源组**。
【2月更文挑战第34天】DataWorks的集成任务并发度设置主要影响的是**调度资源组**。
12 1
|
1月前
|
DataWorks NoSQL 关系型数据库
DataWorks常见问题之鉴权数据库设置失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
运维 DataWorks 数据挖掘
DataWorks常见问题之DataWorks没有设置并行任务数的地方如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
6月前
|
缓存 DataWorks 安全
DataWorks设置dev环境用户安全等级时遇到的AuthorizationException错误
DataWorks设置dev环境用户安全等级时遇到的AuthorizationException错误
46 3
|
1月前
|
数据采集 分布式计算 DataWorks
DataWorks常见问题之跨账号失败设置依赖关系如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
分布式计算 DataWorks 安全
DataWorks常见问题之如何设置工单权限
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
32 1
|
1月前
|
分布式计算 DataWorks 调度
DataWorks常见问题之设置好调度时间的任务运行后查看运行日志报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
39 0
|
1月前
|
DataWorks 大数据 数据处理
DataWorks常见问题之任务设置了调度区间任务调度了两次如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
24 0
|
1月前
|
移动开发 运维 DataWorks
dataworks 常见问题之如何设置离线同步
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
25 0
|
1月前
|
数据采集 分布式计算 DataWorks
Dataworks常见问题之如何创建表时设置主键自增
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
33 2

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks