DataWorks配置完成后的数据质量反馈如何实现?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
数据质量反馈是指DataWorks能够有效收集和响应数据处理过程中的质量问题,从而不断改进数据质量。
需要依赖DataWorks数据质量管理构件实现,主要包括以下步骤:
在数据处理节点中(如SQL任务、Python UDF等),定义数据质量规则。
数据质量规则可以定义检查列空值率、重复值率、有效值率等指标,并设置阈值和告警级别。
在数据处理过程中,触发数据质量规则,检查数据是否符合要求。
核心是利用DataWorks开发的质量规则引擎完成实时数据质量检查。
如果数据存在质量问题,会根据规则配置发出告警。
支持通过短信、邮件、公告等多种形式进行质量问题回馈。
管理员和数据负责人可以查看数据质量告警,并进行处理。
DataWorks提供数据质量管理台,集中查看和管理所有数据质量问题。
根据数据质量问题,修改数据源和数据处理流程,以改善数据质量。
针对已有的表进行监控规则配置,配置完成后进行试跑,验证该规则是否适用。您可以根据试跑结果,确认此次任务产出的数据是否符合预期。建议每个表的监控规则配置完成后,都进行一次试跑操作,以验证表规则的适用性。试跑成功后,将该规则和调度任务进行关联。在监控规则配置完成且试跑成功的情况下,您需要将表和其产出任务进行关联,以便每次表的产出任务运行完成后,都会触发数据质量规则的校验,以保证数据的准确性。关联调度后,每次调度任务代码运行完成,都会触发数据质量的校验规则,以提升任务准确性。数据质量支持设置规则订阅,您可以针对重要的表及其规则设置订阅,设置订阅后会根据数据质量的校验结果进行告警,从而实现对校验结果的跟踪。如果数据质量校验结果异常,则会根据配置的告警策略进行通知。说明每张表在完成规则的配置后,都需要进行试跑、关联调度和规则订阅等操作。数据质量会产生额外的计算费用,更多详情请参见概述。
https://help.aliyun.com/document_detail/85362.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。