DataWorks百问百答63:DataWorks如何进行离线数据质量监控?-阿里云开发者社区

开发者社区> DataWorks> 正文

DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

简介: DataWorks如何进行离线数据质量监控

前言

 日常工作中,每时每刻都在产生大量重要的数据,数据质量问题也随之而来。如何用最少的人力、最快的速度,自动完成数据质量校验,对于企业节省成本、上层决策应用等起到关键作用。DataWorks的数据质量模块,为您提供全链路的数据质量方案,让数据监控更加简单、高效。
   数据质量最基本、也最关键的功能,就是配置监控规则。目前,数据质量支持MaxCompute和EMR两种离线数据源,以及DataHub实时数据源。未来,会陆续支持更多种类的引擎/数据源。本期首先为您介绍离线数据源的监控规则配置方法。

如何配置离线数据的监控规则

1. 选择“引擎/数据源”-->"引擎/数据源实例"-->需要监控的表,点击配置监控规则。

2. 创建分区表达式,目的是定位最新数据,避免全表扫描。系统自带分区表达式的含义如下:

$[yyyymmdd] 调度日期
$[yyyymmdd-1] 业务日期
$[yyyymmdd-N] 前N天
$[yyyymm01-1] 每月1日
$[yyyymm01-Nm] N月前1日
$[yyyymmld-1] 每月最后一天
$[yyyymmld-Nm] N月前最后一天
$[yyyymmddhh24miss] 调度时间
$[hh24miss-1/24] 一个小时前
$[hh24miss-30/24/60] 半个小时前

若为非分区表,则表达式如下:
NOTAPARTITIONTABLE

3. 选择某一分区表达式,点击“创建规则”蓝色按钮,出现创建监控规则的右侧拉窗。监控规则分为模板规则和自定义规则两种。

(1)模板规则:数据质量支持43种表级和字段级的内置模板以及9种动态阈值模板,同时还支持用户自建的规则模板库。
注:动态阈值和规则模板库,在后续的高级功能中会为大家详细介绍,敬请期待。本期模板规则是在动态阈值选择“否”的前提下进行演示。
dataworks63-8.png

填写说明如下:

规则名称 填写规则名称
强弱 强规则阻塞下游,弱规则仅报警
动态阈值 是否使用动态阈值,进行智能判断
规则来源 选择使用43种内置模版或自建的规则模板库
规则字段 选择表级或字段级规则。
规则模版 选择具体的规则模板。规则模板会根据规则字段的不同而变化
比较方式 波动率型模板:绝对值、上升、下降
固定值型模板:大于、大于等于、等于、不等于、小于等于、小于
校验阈值 波动率型模板:橙色阈值、红色阈值
固定值模板:期望值

注:强弱规则的橙色报警均不会阻塞下游,必须小于红色阀值,精确到百分比小数点后两位。强规则的红色报警会触发阻塞,必须大于橙色阀值,精确到百分比小数点后两位。

(2)自定义规则:支持用户输入自定义SQL创建监控规则
dataworks63-7.png

填写说明如下:

规则名称 填写规则名称
强弱 强规则阻塞下游,弱规则仅报警
规则字段 选择自定义SQL
采样方式 选择自定义SQL
Set Flag 输入SQL的前置set语句
自定义SQL 只接收查询语句;
可使用分区表达式变量;
可关联其他表;
可使用UDF
校验类型 分为数值型、波动率型、动态阈值型。选择不同检验类型,比较方式和阈值形式会进行相应变化
描述 输入对规则的描述,会出现在报警信息中

4. 规则内容设置完毕后,点击批量保存,规则即创建成功。

添加规则订阅管理

在监控配置首页,选择某一分区表达式,点击“订阅管理”按钮,可为该分区表达式下的监控规则添加配置订阅信息。订阅方式主要包括邮件、短信、钉钉群(支持@all)三种方式,接受对象范围为该项目下的所有成员。
dataworks63-6.png

规则试跑

规则试跑的目的有3种:测试监控规则配置的是否正确;测试订阅发送渠道是否正确;手动运行监控规则。在监控配置首页,选择某一分区表达式,点击“试跑”按钮
dataworks63-5.png

监控规则如何关联调度

监控规则和订阅都已经配置完毕、并试跑成功,那如果启动正式的规则校验呢?数据质量采用的是将规则与调度节点关联起来的方式。当该节点开始任务调度时,所关联的所有规则会同时进行校验。
关联调度节点的方式有两种:
1.在数据质量直接进行关联
在某一分区表达式下选择“关联调度”按钮,进行调度节点的绑定
dataworks63-4.png
2.在运维中心进行关联
在运维中心--周期任务中,找到希望关联的节点,右键该节点,选择“配置质量监控”
dataworks63-3.png

在出现的弹窗中,选择引擎、实例、表名、分区表达式,进行监控规则配置。注意分区表达式不要填错了哦!
dataworks63-2.png

查询任务执行结果

节点任务执行后,规则校验也随之被执行。规则校验的结果可以在数据质量的“任务查询”页面中进行查看。每条规则的详细情况可以点击“详情”进行查看。
dataworks63-1.png


好啦,本期数据质量“百问百答”就介绍到这里,下一期会为大家介绍实时数据的监控规则配置方法。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
DataWorks
使用钉钉扫一扫加入圈子
+ 订阅

DataWorks作为飞天大数据平台操作系统,对接各种大数据计算引擎,以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台,高效率完成数据全链路研发流程,建设企业数据治理体系。 从2009年飞天大数据平台写下第一行代码开始,DataWorks历经10年发展,形成一套成熟的产品功能体系,满足企业数据中台搭建需求。

官方博客
DataWorks产品官网