DataWorks数据质量校验,规则分类分成哪几类,分别有什么用?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
每个类别都有不同的用途和目的:
完整性规则(Completeness Rules):用于检查数据是否完整,即数据是否存在缺失或空值。这些规则可以帮助您确定数据是否缺少重要字段或是否存在空白记录。
一致性规则(Consistency Rules):用于验证数据的一致性,确保数据在不同位置或不同时间点的值是一致的。这些规则可以检查数据是否存在冲突、不一致或错误的情况。
准确性规则(Accuracy Rules):用于检查数据的准确性,即数据是否与预期的值或参考数据一致。这些规则可以帮助您发现数据错误、异常或偏差。
唯一性规则(Uniqueness Rules):用于验证数据的唯一性,即数据是否存在重复记录或重复键值。这些规则可以帮助您发现数据中的重复项,以确保数据的唯一性和一致性。
合规性规则(Compliance Rules):用于验证数据是否符合特定的合规性要求、标准或规范。这些规则可以帮助您确保数据满足法律、行业或内部的合规要求。
及时性规则(Timeliness Rules):用于检查数据的及时性,即数据是否按时更新和提交。这些规则可以帮助您发现数据延迟、过期或未及时更新的情况。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。