数据质量概述https://help.aliyun.com/zh/dataworks/user-guide/overview-36?spm=a2c4g.11186623.0.i224
数据质量帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本、避免任务重新运行带来的资源费用浪费。
数据质量支持对常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务运行完成后便会触发质量规则校验,帮助您第一时间感知问题数据,按需设置规则的强弱来控制任务是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。
DataWorks的数据质量是一种用于检测和纠正数据错误的功能,它可以帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。数据质量模块与数据开发调度深度集成,全面支持DataWorks底层离线数据存储的引擎,如MaxCompute、EMR Hive、MC-Hologres、ADB-PG等。DataWorks数据质量规则由调度系统触发,好处是可以在最佳时间点调度数据质量监控规则去扫描表,在节省计算资源的同时可以及时发现问题。如果是强规则,还能自动阻塞下游任务运行,防止问题数据污染下游。
了解数据质量相关功能,参考下面文档:https://help.aliyun.com/document_detail/73660.html?spm=a2c4g.11186623.6.707.788d597a47XHOk?,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks数据质量是指数据是否符合特定需求和标准,能否真实反映事实情况。数据质量好是数据利用价值的前提。DataWorks数据质量主要从以下几个层面来衡量:
通过监控数据质量,可以及时发现和修复数据质量问题,保证数据的准确性和可靠性,提高数据的价值和利用效率。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。