开发者社区> 瓴羊智能服务-Dataphin> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

如何基于Dataphin数据质量能力,快速建设高质量数据,支撑业务发展

简介: 数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。
+关注继续查看

高质量数据能更好支撑业务发展

数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。

数据质量的好坏,直接影响着业务的开展,下面是一些简单的示例:

良好的数据质量

糟糕的数据质量

1、数据支撑业务顺利开展,如

更精确的用户偏好,通过推荐提高用户的消费额

更实时的物流信息,优化物流分配和配送效率

更准确的仓储信息,优化仓储补货和管理

2、及时、准确的数据,支持高效的商务决策

1、业务开展受阻,如

无法正确开具发票,导致无法走财务流程

登记了错误的用户联系方式,导致货物无人接收

2、数据错误导致业务决策出错

3、最好的机器学习算法,遇到数据质量不足时,结果也不如人意

数据质量问题的来源众多,业务方面(业务规则未定义、业务输入控制)、管理方面(无完整数据治理体系)、技术方案(设计和开发脱节、数据采集有误等)都可能导致数据质量变差。完整的解决数据质量问题,需要从业务、管理和技术等多方面进行优化。

c0cebc07-cbf8-4c18-bc2d-08720be691fc.png

Dataphin数据质量可以帮助组织沉淀业务规则,并通过技术进行自动化的质量校验,同时支持告警、大盘等管理功能,助力企业解决数据质量问题,获得高质量数据来更好支持业务发展。


全域数据质量能力

全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控,本次升级支持了大部分常用场景和计算源,并持续扩展中。

Dataphin当前能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:

质量校验对象

支持范围

质量校验能力

Dataphin表

支持Dataphin上的物理表和逻辑表的质量校验。支持Maxcompute、Hadoop系列(CDP、CDH、TDH等)、ADB等环境下数据表质量的校验

支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验

该部分详见质量规则模版

全域表

支持MySQL、Oracle、Maxcompute、Hive等7种数据源表的质量检测,并持续扩展中

支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验

该部分详见质量规则模版

数据源

注册到Dataphin上的数据源的稳定性,支持20+常见数据源的质量校验,并持续扩展中

1、数据源连通性

2、表结构变动监控

实时元表

Dataphin的实时元表

1、实时指标监控

2、实时离线对比

3、实时多条链路对比

指标

Dataphin生产的指标

1、指标的稳定性、唯一性等监控


质量规则模版

Dataphin数据质量,支持对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定SQL等7种质量模版分类下24个模版共计100+不同监控指标的质量规则校验,7种质量模版分类介绍如下:

质量规则分类

分类说明(主要基于DAMA)

举例

完整性

1、完备性用于对表/字段是否存在所有必要数据进行判断,用于检查数据是否完整

2、常用于判断字段填充率、必填/非空(填充率100%)等

企业有1000员工,只有600人有联系方式

唯一性

1、唯一性用于对字段是否唯一进行校验。

2、常用于判断主键/业务实体的唯一性、重复率等

员工身份证号码应该只出现一次

及时性

1、及时性用于对数据时间更新的频率和间隔进行验证

2、常用于判断业务日期/操作日期是否最新,时间间隔是否合理

A上午8点入职,10点才能在系统看到相关信息

有效性

1、有效性用于对数据内容填写是否符合规范进行校验

2、常用于对数据的类型/范围/长度格式进行校验

员工年龄-1岁,无效

一致性

1、一致性用于对比不同列、不同表之间的数据一致性或者业务一致性。

2、常用于比较不同数据表的主键是否相同、单价乘数量是否等于总价等

A在员工系统的公司职务是总监,在销售系统是主管

稳定性

1、稳定性用于校验数据产出是否稳定,也可以用于校验业务数据是否稳定

2、常用于校验数据总大小/总条数是否稳定,以及数据的汇总值、平均值是否稳定等

客户数量在10000家,当一个月波动20%的时候可能存在异常

自定义SQL

支持自定义指标监控和自定义异常数据监控两种方式,分别针对数据统计值和数据详情进行质量监控

/

*这里仅针对模版的整体能力进行说明,每一个分类下都有更多的模版和应用场景,详见Dataphin产品手册


产品能力展示

2edb41a9-c49d-4527-86f3-158c2389e124.png

1、质量大盘

质量大盘可以展示当前全局的校验规则情况和异常情况,有助于管理员快速发现整体问题,安排排查任务。

cea542b3-5316-4dbc-97d5-99d16bf39b61.png

2、模版管理

模版管理可以查看质量当前所有的模版信息。

模版分为系统内置模版和自定义模版,系统模版开箱即用,可以用来快速创建质量规则。如果组织内有通用的需求(如:用户年龄区间有效性、财务数据准确性等),可以沉淀为通用的模版,用于业务质量规则的快速创建。

2.1、质量模版管理

36ea73a4-6bac-4e5e-96aa-c3f3f2deed94.png

2.2、新建自定义规则模版

914bd084-db06-493a-9146-51418ef70a1c.png

3、质量规则

支持给质量监控对象(如表、数据源)配置质量规则,并设置告警阈值和规则强弱;配置调度后就可以定时或者跟随数据更新来自动触发质量的校验任务,完成后自动生成质量报告,并根据校验情况完成告警、阻断等后续操作。

3.1、质量规则管理

4c4e3f53-b83b-474c-b985-8605d46ae77f.png

3.2、表的质量规则配置

3e62a98d-7e72-4443-ba1d-d3321ffc8d75.png

3.3、新建质量规则

cac44f3d-e4b6-43d7-bbca-176cd35b41e0.png

预览质量规则SQL

9a5a2a69-5d5e-4bc6-9f2c-592290a918f3.png

3.4、调度配置

c3d19faf-8ecd-4233-b987-c04fbf810a1c.png

3.5、告警配置

7ddbfbf4-e3f6-4eff-8c5c-3b6de34c0dfb.png

3.6、质量报告

40e0308e-493d-43b4-a1e5-e25beb361c28.png

3.7、质量规则试跑和运行

cbc11b3a-3d0b-4be9-89dd-95be9b3af37a.png


4、校验记录

校验记录可以查看每次校验规则执行的具体结果和详情,是每天检查数据质量和处理质量问题最常用的入口。Dataphin质量的校验记录,详细的记载了每次质量规则校验的时间、状态和执行详情,便于进行日常检查和错误排查。

4.1、资源粒度的校验记录

3ca4d496-e171-4a52-abf6-1c3d1a8030ca.png

4.2、资源校验详情

736106c0-fc32-40dc-9321-3b752d969104.png

50cde213-267c-4882-93c0-6d3000cdbc44.png


5、数据源管理

数据源除了要进行数据质量检测任务外,还要进行日常的业务支撑。为了防止数据质量任务影响到日常业务,支持对单个数据源支持的最大质量并行度进行控制,当达到质量最大并行度时,新调度的质量规则会进入排队等待状态,以保护业务的正常开展。

deff5d0c-dbfd-41fe-b919-841752e95463.png


最后,我们通过视频来了解下Dataphin数据质量模块的质量监控场景和具体的操作。


309C1EC9-F34D-46d8-9CF0-8C997671F325.png

【点击图片收看视频】


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Dataphin V3.5 新版发布!10项能力升级,覆盖多场景妙用,助力构建企业级数据中台
DataphinV3.5新版本强化了规范建模,以及全域全链路资产管理能力,显著提升数据治理水平,在计算引擎利旧降本基础上满足企业多元化数智应用需求,为企业上云用数赋智夯实数字化能力底座。
113 0
智能数据构建与管理平台Dataphin通过中国信通院数据资产管理能力评测
评测指出,Dataphin在 “数据源管理、元数据管理、数据标准管理、数据治理管理、主数据管理、数据模型管理、数据共享服务管理、数据资产报告、数据安全管理、兼容性、安全性、其他测试”等方面,均满足能力评测要求。
559 0
【产品动态】数据智能构建管理平台Dataphin V2.9.4.3版本发布
Dataphin发布V2.9.4.3版本升级多项产品能力,该版本在产品功能和用户体验上都进行了优化和提升,旨在为用户提供更完善的产品能力和体验,以加速企业数据中台建设进程。
838 0
智能数据构建与管理平台Dataphin的前世今生:缘起
阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务。
779 0
【产品动态】一文详细解读智能数据构建产品Dataphin的“规划”功能
数据中台是传统的数据仓库的一种升级, 是数据采集、建设、管理与使用的一整套体系,Dataphin是一个构建数据中台的强大工具, 核心优势是在数据的建设与管理上引入了阿里巴巴多年来数据中台建设沉淀出的OneModel方法论。
5923 0
【产品动态】历经3年的打磨,数据构建及管理平台Dataphin增加了什么新功能?
自Dataphin产品上线以来,经历3年的迭代打磨,在2021年5月15日发布新版本,主要涉及数据源类型拓展,数据集成、实时研发、数据服务功能升级,运维体验优化等,将满足更多用户场景,提升研发体验。
10763 0
如何通过Dataphin构建数据中台新增100万用户?
作者:陈梦婷 更多内容详见数据中台官网 https://dp.alibaba.comDataphin欢迎来到数据中台小讲堂!这一期我们来看看,作为阿里巴巴数据中台(OneData - OneModel、OneID、OneService)方法论的产品载体,Dataphin如何帮助传统零售企业实现数字...
2171 0
【阿里云新品发布·周刊】第15期:Dataphin公共云重磅发布,提供一站式智能数据构建与管理能力
点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 最新发布 Dataphin公共云重磅发布 2019年6月26日15时,阿里云Dataphin公共云重磅发布,基于实践中沉淀的数据技术与阿里巴巴独创的方法论,提供了一站式智能数据构建与管理的能力,支撑企业数据的全链路贯通。
7137 0
阿里云智能数据构建与管理 Dataphin公测,助力企业数据中台建设
阿里云智能数据构建与管理 Dataphin,近日重磅上线公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化构建企业数据中台,不仅大幅度提升大数据研发效率,实现数据资产的标准化管理,更通过数据服务体系让数据智能驱动业务。
7038 0
文章
问答
文章排行榜
最热
最新
相关电子书
更多
Dataphin产品白皮书
立即下载
2015网络可信身份发展年报
立即下载
Javascript中的函数
立即下载