Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。

高质量数据能更好支撑业务发展

数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。

数据质量的好坏,直接影响着业务的开展,下面是一些简单的示例:

良好的数据质量

糟糕的数据质量

1、数据支撑业务顺利开展,如

更精确的用户偏好,通过推荐提高用户的消费额

更实时的物流信息,优化物流分配和配送效率

更准确的仓储信息,优化仓储补货和管理

2、及时、准确的数据,支持高效的商务决策

1、业务开展受阻,如

无法正确开具发票,导致无法走财务流程

登记了错误的用户联系方式,导致货物无人接收

2、数据错误导致业务决策出错

3、最好的机器学习算法,遇到数据质量不足时,结果也不如人意

数据质量问题的来源众多,业务方面(业务规则未定义、业务输入控制)、管理方面(无完整数据治理体系)、技术方案(设计和开发脱节、数据采集有误等)都可能导致数据质量变差。完整的解决数据质量问题,需要从业务、管理和技术等多方面进行优化。

c0cebc07-cbf8-4c18-bc2d-08720be691fc.png

Dataphin数据质量可以帮助组织沉淀业务规则,并通过技术进行自动化的质量校验,同时支持告警、大盘等管理功能,助力企业解决数据质量问题,获得高质量数据来更好支持业务发展。


全域数据质量能力

image.png

【点击图片收看视频介绍】

全域数据质量是指对客户全场景/全数据源下的数据常用的数据场景,都可以进行数据质量监控,本次升级支持了大部分常用场景和计算源,并持续扩展中。

Dataphin当前能够对客户在数据处理中常用到的数据引擎、数据源和数据对象进行数据质量的监控,详细支持的列表如下:

质量校验对象

支持范围

质量校验能力

Dataphin表

支持Dataphin上的物理表和逻辑表的质量校验。支持Maxcompute、Hadoop系列(CDP、CDH、TDH等)、ADB等环境下数据表质量的校验

支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验

该部分详见质量规则模版

全域表

支持MySQL、Oracle、Maxcompute、Hive等7种数据源表的质量检测,并持续扩展中

支持7种质量性质下24个模版共计100+不同监控指标的质量规则校验

该部分详见质量规则模版

数据源

注册到Dataphin上的数据源的稳定性,支持20+常见数据源的质量校验,并持续扩展中

1、数据源连通性

2、表结构变动监控

实时元表

Dataphin的实时元表

1、实时指标监控

2、实时离线对比

3、实时多条链路对比

指标

Dataphin生产的指标

1、指标的稳定性、唯一性等监控


质量规则模版

Dataphin数据质量,支持对数据表进行完整性、唯一性、及时性、有效性、一致性、稳定性、自定SQL等7种质量模版分类下24个模版共计100+不同监控指标的质量规则校验,7种质量模版分类介绍如下:

质量规则分类

分类说明(主要基于DAMA)

举例

完整性

1、完备性用于对表/字段是否存在所有必要数据进行判断,用于检查数据是否完整

2、常用于判断字段填充率、必填/非空(填充率100%)等

企业有1000员工,只有600人有联系方式

唯一性

1、唯一性用于对字段是否唯一进行校验。

2、常用于判断主键/业务实体的唯一性、重复率等

员工身份证号码应该只出现一次

及时性

1、及时性用于对数据时间更新的频率和间隔进行验证

2、常用于判断业务日期/操作日期是否最新,时间间隔是否合理

A上午8点入职,10点才能在系统看到相关信息

有效性

1、有效性用于对数据内容填写是否符合规范进行校验

2、常用于对数据的类型/范围/长度格式进行校验

员工年龄-1岁,无效

一致性

1、一致性用于对比不同列、不同表之间的数据一致性或者业务一致性。

2、常用于比较不同数据表的主键是否相同、单价乘数量是否等于总价等

A在员工系统的公司职务是总监,在销售系统是主管

稳定性

1、稳定性用于校验数据产出是否稳定,也可以用于校验业务数据是否稳定

2、常用于校验数据总大小/总条数是否稳定,以及数据的汇总值、平均值是否稳定等

客户数量在10000家,当一个月波动20%的时候可能存在异常

自定义SQL

支持自定义指标监控和自定义异常数据监控两种方式,分别针对数据统计值和数据详情进行质量监控

/

*这里仅针对模版的整体能力进行说明,每一个分类下都有更多的模版和应用场景,详见Dataphin产品手册


产品能力展示

2edb41a9-c49d-4527-86f3-158c2389e124.png

1、质量大盘

质量大盘可以展示当前全局的校验规则情况和异常情况,有助于管理员快速发现整体问题,安排排查任务。

cea542b3-5316-4dbc-97d5-99d16bf39b61.png

2、模版管理

模版管理可以查看质量当前所有的模版信息。

模版分为系统内置模版和自定义模版,系统模版开箱即用,可以用来快速创建质量规则。如果组织内有通用的需求(如:用户年龄区间有效性、财务数据准确性等),可以沉淀为通用的模版,用于业务质量规则的快速创建。

2.1、质量模版管理

36ea73a4-6bac-4e5e-96aa-c3f3f2deed94.png

2.2、新建自定义规则模版

914bd084-db06-493a-9146-51418ef70a1c.png

3、质量规则

支持给质量监控对象(如表、数据源)配置质量规则,并设置告警阈值和规则强弱;配置调度后就可以定时或者跟随数据更新来自动触发质量的校验任务,完成后自动生成质量报告,并根据校验情况完成告警、阻断等后续操作。

3.1、质量规则管理

4c4e3f53-b83b-474c-b985-8605d46ae77f.png

3.2、表的质量规则配置

3e62a98d-7e72-4443-ba1d-d3321ffc8d75.png

3.3、新建质量规则

cac44f3d-e4b6-43d7-bbca-176cd35b41e0.png

预览质量规则SQL

9a5a2a69-5d5e-4bc6-9f2c-592290a918f3.png

3.4、调度配置

c3d19faf-8ecd-4233-b987-c04fbf810a1c.png

3.5、告警配置

7ddbfbf4-e3f6-4eff-8c5c-3b6de34c0dfb.png

3.6、质量报告

40e0308e-493d-43b4-a1e5-e25beb361c28.png

3.7、质量规则试跑和运行

cbc11b3a-3d0b-4be9-89dd-95be9b3af37a.png


4、校验记录

校验记录可以查看每次校验规则执行的具体结果和详情,是每天检查数据质量和处理质量问题最常用的入口。Dataphin质量的校验记录,详细的记载了每次质量规则校验的时间、状态和执行详情,便于进行日常检查和错误排查。

4.1、资源粒度的校验记录

3ca4d496-e171-4a52-abf6-1c3d1a8030ca.png

4.2、资源校验详情

736106c0-fc32-40dc-9321-3b752d969104.png

50cde213-267c-4882-93c0-6d3000cdbc44.png


5、数据源管理

数据源除了要进行数据质量检测任务外,还要进行日常的业务支撑。为了防止数据质量任务影响到日常业务,支持对单个数据源支持的最大质量并行度进行控制,当达到质量最大并行度时,新调度的质量规则会进入排队等待状态,以保护业务的正常开展。

deff5d0c-dbfd-41fe-b919-841752e95463.png


最后,我们通过视频来了解下Dataphin数据质量模块的质量监控场景和具体的操作。


309C1EC9-F34D-46d8-9CF0-8C997671F325.png

【点击图片收看视频】


相关文章
|
29天前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
29天前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
29天前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
存储 数据采集 安全
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
|
1月前
|
SQL 分布式计算 数据可视化
Dataphin常见问题之看不到上个版本的血缘如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
2月前
|
SQL 分布式计算 关系型数据库
Dataphin实现MaxCompute外表数据快速批量同步至ADB MySQL
当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。 DataphinV3.14版本支持外表导入SQL的带参调度,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。
283 1
|
3月前
|
SQL 运维 调度
Dataphin V3.14 版本升级|研发平台更易用,治理能力更完备,企业级适配更灵活
Dataphin V3.14 重磅升级,平台支持企业级适配,适配企业特色;研发体验易用性提升,数据研发更高效、任务运维更便捷;数据治理能力更完备,支持多对象批量操作,规则级告警配置、分级分类自动继承继承!
303 0
|
4月前
|
存储 运维 大数据
瓴羊Dataphin发布新能力,实现一体化、轻量化、布局流通
瓴羊Dataphin发布新能力,实现一体化、轻量化、布局流通
|
4月前
|
人工智能 安全 大数据
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
|
4月前
|
SQL 监控 安全
Dataphin V3.11焕新升级丨2大全新模块上线,让数据分析更敏捷、让数据流通更安全
Dataphin V3.11焕新升级丨2大全新模块上线,让数据分析更敏捷、让数据流通更安全

相关产品

  • 智能数据建设与治理 Dataphin