1、配置分区表达式
数据质量通过分区表达式来确定数据质量校验的表分区数据。
此步骤中,您需要监控目标表ods_raw_log_d表达式$[yyyymmdd-1]所匹配的分区数据是否符合预期,即在ods_raw_log_d表每次监控规则执行时,监控其业务时间对应分区的数据是否符合数据质量校验规则。步骤如下:
image.png
在表监控规则配置页面,单击分区表达式后的image.png,进入添加分区页面。
在添加分区对话框中,选择分区表达式为$[yyyymmdd-1]。
单击计算,查看计算结果是否符合预期,确认无误后单击确定。
本案例希望监控每日调度任务产出的表数据是否符合预期,由于当前表每日产出业务时间昨天的数据,所以此处计算结果显示调度时间为今天,计算结果为昨天时,符合预期。
2、配置监控规则
表ods_raw_log_d用于接收从OSS同步过来的网站访问记录,为用户画像分析场景源头表,所以为避免后续无效加工及质量问题,我们针对该表配置表行数大于0的强监控规则,来判断同步任务是否往该表该分区写入数据。
当监控到ods_raw_log_d表对应分区行数为0,将触发告警,ods_raw_log_d节点失败退出,并阻塞ods_raw_log_d节点的下游任务执行。
image.png
单击创建规则,进入创建规则页面。
单击添加监控规则,配置如下参数,并单击批量添加。
规则名称:自定义该监控规则名称,本案例为表行数是否大于0。
强弱:根据业务影响程度定义该规则是否阻塞下游任务执行。
本案例规则定义为强,即当监控到ods_raw_log_d表行数为0时,触发告警,并且阻塞下游任务执行。
更多配置项介绍请参见配置规则:按表(单表)。
3、试跑质量规则
试跑可校验规则配置的合理性,为确保质量规则的配置无误且符合预期,您可在规则创建完成后,试跑该规则。
image.png
单击试跑,进入试跑对话框。
在试跑对话框中,选择调度时间,单击试跑。
试跑完成后,单击试跑成功,点击查看试跑结果,查看试跑结果。
4、规则关联调度节点
数据质量通过关联调度的方式及时感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,即通过关联调度节点触发数据质量校验规则执行。
本案例中,当ods_raw_log_d节点将OSS数据同步至ods_raw_log_d表后即对该表对应分区数据进行表行数非0校验,若校验不通过,阻断下游任务执行,及时阻塞脏数据蔓延。
image.png
在数据质量规则配置页面,单击关联调度,进入关联调度配置页面。
在关联调度页面输入框中,输入ods_raw_log_d,单击添加,即通过ods_raw_log_d节点执行来触发ods_raw_log_d表的数据质量规则校验。
5、订阅规则校验结果
数据质量为您提供监控报警功能,通过订阅表数据质量校验规则,及时接收质量校验异常并处理,保障数据安全、稳定、按时产出。
以下是在DataWorks中配置数据质量监控的操作步骤:
除此之外,数据质量也支持多种异构数据源的质量校验、通知和管理服务,以数据集(DataSet)为监控对象。目前主要支持MaxCompute数据表的监控。当离线MaxCompute数据发生变化时,数据质量会自动对数据进行校验,并可阻止生产链路以避免问题数据的扩散。同时,数据质量还提供历史校验结果的管理,方便用户对数据质量进行分析和定级。
进入数据开发页面。登录DataWorks控制台。在左侧导航栏,单击工作空间列表。选择工作空间所在地域后,单击相应工作空间后的进入数据开发。进入ods_log_info_d表的监控规则页面。单击左上角的
图标,选择全部产品 > 数据质量。在左侧导航栏,单击监控规则,从数据源下拉列表中选择EMR。单击ods_log_info_d表后的配置监控规则。添加分区表达式。在已添加的分区表达式模块,单击+。添加分区对话框中,选择分区表达式为dt=$[yyyymmdd-1],并选择相应的数据质量插件。单击计算,即可查看调度结果。确认无误后,单击确认。创建规则。选中分区后,单击右上角的创建规则。在模板规则对话框中,单击添加监控规则。配置监控规则。
参数 描述
规则名称 新建规则的名称。
强弱 设置规则的强度为强。
动态阈值 根据自身需求,选择是否开启动态阈值。
规则来源 包括内置模板和规则模板库。
规则字段 请选择表级规则(table)。
规则模板 请选择表行数,固定值。
比较方式 请选择大于。
期望值 设置为0,即比较方式为期望值大于0。配置完成后,单击批量添加。进行试跑。单击页面右上角的试跑。在试跑对话框中,选择调度时间和资源组,单击试跑。试跑完成后,单击试跑成功!点击查看试跑结果,即可跳转至试跑结果页面。进行关联调度。在ods_log_info_d表的监控规则页面,单击关联调度。在关联调度对话框中,输入节点ID或节点名称,单击添加。添加完成后,即可完成与调度节点任务的绑定,则任务实例运行完成都会触发数据质量的检查。配置任务订阅。在ods_log_info_d表的监控规则页面,单击订阅管理。在订阅管理对话框中,设置订阅方式和接受对象。目前支持的订阅方式包括邮件通知、邮件和短信通知、钉钉群机器人和钉钉群机器人@ALL。设置完成后,单击保存,您可以进入我的订阅页面进行查看和修改。
https://help.aliyun.com/document_detail/146697.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
在DataWorks中,配置数据质量监控操作步骤如下:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。