在DataWorks中,数据质量反馈的实现主要依赖于以下功能:
数据质量监控:当源端数据发生变更或ETL过程中产生脏数据时,数据质量功能能第一时间感知并自动拦截问题任务,有效防止问题数据向下游传播,避免对正常使用和业务决策产生影响。此外,它还为用户提供了监控报警功能,用户可以订阅具体数据的质检规则,这样在出现质量校验异常结果时,就能立即接收到通知并快速处理,保障数据的安全、稳定和按时产出。
丰富的监控模板:DataWorks的数据质量监控功能提供了35种预设的表级别、字段级别和自定义的监控模板,以满足不同业务场景的需求。
灵活的校检逻辑:数据质量支持与固定值比较、波动值比较和动态阈值三种校检方式。用户可以根据具体的业务需求,选择最适合的校检方式。例如,对于SQL任务表行数的波动检测,可以选择与基准值(比如7天前的表行数或7天平均值)进行比较,以计算波动率。
通过以上功能,DataWorks能够帮助用户实现对数据质量的有效管理和控制。
针对已有的表进行监控规则配置,配置完成后进行试跑,验证该规则是否适用。您可以根据试跑结果,确认此次任务产出的数据是否符合预期。建议每个表的监控规则配置完成后,都进行一次试跑操作,以验证表规则的适用性。试跑成功后,将该规则和调度任务进行关联。在监控规则配置完成且试跑成功的情况下,您需要将表和其产出任务进行关联,以便每次表的产出任务运行完成后,都会触发数据质量规则的校验,以保证数据的准确性。关联调度后,每次调度任务代码运行完成,都会触发数据质量的校验规则,以提升任务准确性。数据质量支持设置规则订阅,您可以针对重要的表及其规则设置订阅,设置订阅后会根据数据质量的校验结果进行告警,从而实现对校验结果的跟踪。如果数据质量校验结果异常,则会根据配置的告警策略进行通知。说明每张表在完成规则的配置后,都需要进行试跑、关联调度和规则订阅等操作。数据质量会产生额外的计算费用,更多详情请参见概述。
https://help.aliyun.com/document_detail/85362.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
在DataWorks中,可以通过以下步骤配置完成后的数据质量反馈:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。