DataWorks数据质量如何评价?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks提供了数据质量评估功能,可以对数据进行多维度的质量评估,并生成质量报告,以便用户了解数据的质量状况和问题。具体来说,DataWorks的数据质量评估功能包括以下几个方面:
数据完整性:通过比较数据表中的行数、主键、外键等信息,检查数据是否存在缺失、重复、错误等问题。
数据准确性:通过检查数据表中的数据类型、范围、格式等信息,检查数据是否符合业务逻辑和规范要求。
数据一致性:通过检查多个数据源之间的数据是否一致,检查数据是否存在跨系统或跨表格的问题。
数据可靠性:通过检查数据表中的数据源、数据生成时间、数据更新时间等信息,检查数据是否可靠和更新及时。
数据安全性:通过检查数据表中的敏感信息和权限控制等信息,检查数据是否受到适当的保护和授权。
数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集(DataSet)为监控对象,目前支持MaxCompute数据表和DataHub实时数据流的监控。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量分析和定级。在流式数据场景下,数据质量能够基于DataHub数据通道进行断流监控,第一时间告警给订阅用户,并且支持橙色、红色告警等级以及告警频次设置,最大限度减少冗余报警。 https://help.aliyun.com/document_detail/85362.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。