DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: DataWorks如何进行离线数据质量监控

前言

 日常工作中,每时每刻都在产生大量重要的数据,数据质量问题也随之而来。如何用最少的人力、最快的速度,自动完成数据质量校验,对于企业节省成本、上层决策应用等起到关键作用。DataWorks的数据质量模块,为您提供全链路的数据质量方案,让数据监控更加简单、高效。
   数据质量最基本、也最关键的功能,就是配置监控规则。目前,数据质量支持MaxCompute和EMR两种离线数据源,以及DataHub实时数据源。未来,会陆续支持更多种类的引擎/数据源。本期首先为您介绍离线数据源的监控规则配置方法。

如何配置离线数据的监控规则

1. 选择“引擎/数据源”-->"引擎/数据源实例"-->需要监控的表,点击配置监控规则。

2. 创建分区表达式,目的是定位最新数据,避免全表扫描。系统自带分区表达式的含义如下:

$[yyyymmdd] 调度日期
$[yyyymmdd-1] 业务日期
$[yyyymmdd-N] 前N天
$[yyyymm01-1] 每月1日
$[yyyymm01-Nm] N月前1日
$[yyyymmld-1] 每月最后一天
$[yyyymmld-Nm] N月前最后一天
$[yyyymmddhh24miss] 调度时间
$[hh24miss-1/24] 一个小时前
$[hh24miss-30/24/60] 半个小时前

若为非分区表,则表达式如下:
NOTAPARTITIONTABLE

3. 选择某一分区表达式,点击“创建规则”蓝色按钮,出现创建监控规则的右侧拉窗。监控规则分为模板规则和自定义规则两种。

(1)模板规则:数据质量支持43种表级和字段级的内置模板以及9种动态阈值模板,同时还支持用户自建的规则模板库。
注:动态阈值和规则模板库,在后续的高级功能中会为大家详细介绍,敬请期待。本期模板规则是在动态阈值选择“否”的前提下进行演示。
dataworks63-8.png

填写说明如下:

规则名称 填写规则名称
强弱 强规则阻塞下游,弱规则仅报警
动态阈值 是否使用动态阈值,进行智能判断
规则来源 选择使用43种内置模版或自建的规则模板库
规则字段 选择表级或字段级规则。
规则模版 选择具体的规则模板。规则模板会根据规则字段的不同而变化
比较方式 波动率型模板:绝对值、上升、下降
固定值型模板:大于、大于等于、等于、不等于、小于等于、小于
校验阈值 波动率型模板:橙色阈值、红色阈值
固定值模板:期望值

注:强弱规则的橙色报警均不会阻塞下游,必须小于红色阀值,精确到百分比小数点后两位。强规则的红色报警会触发阻塞,必须大于橙色阀值,精确到百分比小数点后两位。

(2)自定义规则:支持用户输入自定义SQL创建监控规则
dataworks63-7.png

填写说明如下:

规则名称 填写规则名称
强弱 强规则阻塞下游,弱规则仅报警
规则字段 选择自定义SQL
采样方式 选择自定义SQL
Set Flag 输入SQL的前置set语句
自定义SQL 只接收查询语句;
可使用分区表达式变量;
可关联其他表;
可使用UDF
校验类型 分为数值型、波动率型、动态阈值型。选择不同检验类型,比较方式和阈值形式会进行相应变化
描述 输入对规则的描述,会出现在报警信息中

4. 规则内容设置完毕后,点击批量保存,规则即创建成功。

添加规则订阅管理

在监控配置首页,选择某一分区表达式,点击“订阅管理”按钮,可为该分区表达式下的监控规则添加配置订阅信息。订阅方式主要包括邮件、短信、钉钉群(支持@all)三种方式,接受对象范围为该项目下的所有成员。
dataworks63-6.png

规则试跑

规则试跑的目的有3种:测试监控规则配置的是否正确;测试订阅发送渠道是否正确;手动运行监控规则。在监控配置首页,选择某一分区表达式,点击“试跑”按钮
dataworks63-5.png

监控规则如何关联调度

监控规则和订阅都已经配置完毕、并试跑成功,那如果启动正式的规则校验呢?数据质量采用的是将规则与调度节点关联起来的方式。当该节点开始任务调度时,所关联的所有规则会同时进行校验。
关联调度节点的方式有两种:
1.在数据质量直接进行关联
在某一分区表达式下选择“关联调度”按钮,进行调度节点的绑定
dataworks63-4.png
2.在运维中心进行关联
在运维中心--周期任务中,找到希望关联的节点,右键该节点,选择“配置质量监控”
dataworks63-3.png

在出现的弹窗中,选择引擎、实例、表名、分区表达式,进行监控规则配置。注意分区表达式不要填错了哦!
dataworks63-2.png

查询任务执行结果

节点任务执行后,规则校验也随之被执行。规则校验的结果可以在数据质量的“任务查询”页面中进行查看。每条规则的详细情况可以点击“详情”进行查看。
dataworks63-1.png


好啦,本期数据质量“百问百答”就介绍到这里,下一期会为大家介绍实时数据的监控规则配置方法。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
DataWorks 监控 关系型数据库
DataWorks报错问题之离线同步任务打开关闭后一直报警如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks提供的数据同步类型不仅包括整库离线同步
【2月更文挑战第31天】DataWorks提供的数据同步类型不仅包括整库离线同步
21 8
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks报错问题之DataWorks离线同步任务报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks不仅提供单表离线模式,还支持多种数据同步任务类型。
【2月更文挑战第31天】DataWorks不仅提供单表离线模式,还支持多种数据同步任务类型。这些类型包括整库离线同步(一次性全量同步、周期性全量同步、离线全增量同步、一次性增量同步、周期性增量同步)以及一键实时同步(一次性全量同步,实时增量同步)。此外,DataWorks还提供了数据类型转换的功能,您可以选择在源端和目标端使用相同的数据类型以避免数据类型转换,或者在源端和目标端使用不同的数据类型,然后在同步时手动转换数据类型。
24 6
|
1月前
|
DataWorks NoSQL MongoDB
DataWorks常见问题之如何集成离线数据
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
46 1
|
1月前
|
DataWorks 关系型数据库 数据处理
DataWorks常见问题之多个数据离线同步任务卡在运行状态10个多小时如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
32 0
|
1月前
|
移动开发 运维 DataWorks
dataworks 常见问题之如何设置离线同步
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
25 0
|
1月前
|
数据采集 DataWorks 监控
DataWorks常见问题之监控规则是数据质量配置好钉钉机器人不报警如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
32 5
|
4月前
|
运维 监控 DataWorks
DataWorks智能监控 规则管理是什么?
DataWorks智能监控 规则管理是什么?
39 2
|
4月前
|
消息中间件 DataWorks NoSQL
dataworks离线数据集成,源库或目标库是MC时,走的是Tunnel? 还是走的是datax啊?
dataworks离线数据集成,源库或目标库是MC时,走的是Tunnel? 还是走的是datax啊?
111 0

相关产品

  • 大数据开发治理平台 DataWorks