数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率

简介: 在Dataphin3.9版本中,Dataphin支持了批量创建质量规则,支持选择单个规则批量应用到多张质量监控表中,提升质量整体的配置效率和监控覆盖效果。

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。

在Dataphin3.9版本中,Dataphin支持了批量创建质量规则,支持选择单个规则批量应用到多张质量监控表中,提升质量整体的配置效率和监控覆盖效果。


一、场景介绍

场景1:需要对一批表的主键,批量配置非空、唯一等基础校验,提升整体的基础质量


场景2:需要对一批数据源,批量配置数据源连通性和表结构异动性监控,从而实时发现上游依赖的数据源和表的结构异常


场景3:需要对一批表的业务数据进行校验,如手机号格式有效性,总金额计算正确性等,及时发现业务数据的问题,提升数据质量


二、产品能力介绍

1、批量添加规则入口

1.1、可以在质量规则页面,批量添加质量规则

6e95d7e7-edcb-4923-a0d7-0fb6f3078977.png

1.2、也可以在规则模版管理页面,选择一个质量规则模版后,批量创建质量规则

6732f207-1ba4-4cf3-afd5-7dcf3d1e00f5.png


2、配置规则

2.1、配置质量规则基本信息

填写质量规则名称,规则强弱约束,选择质量模版

918e496e-70ec-4905-ba35-491450aea27a.png

选择质量监控范围,可以批量选择质量监控的表和字段

44cdfc38-88ae-4fba-997e-818b7f39ebc7.png

2.2、配置质量规则校验详情

如果是唯一性、完整性等基础规则,则无需配置规则详情;如果是有效性、一致性等复杂规则,需要配置详细的规则

这里可以统一配置校验规则和校验配置,后面如果单个规则有特例,可以单独进行修改

186481f9-c120-49dc-8f34-ca313bb8b1af.png

2.3、确认并添加质量规则

在当前这步会进行众多校验,如质量规则配置是否完整、是否有重名,是否有权限等;在这一步可以进行质量规则生成前的确认,并且可以编辑或删除单条规则

点击添加规则后,当前质量规则就会正式写入质量监控表,所以一定要确认无误后再进行添加操作。

ce2a05de-a875-4c9a-885e-f3588ea02a65.png

3、确认质量规则

新添加的质量规则,为了防止配置有误,建议先进行试跑,试跑后在正式开启;同时可以根据实际需要,给规则配置合适的调度,后续可以自动进行相关的质量校验

8206ff02-85e0-47c3-ab3b-c1eacee5d253.png


三、结语

以上就是关于本次批量配置质量规则的全部介绍。合理利用批量配置,能够快速建立起较完善的质量监控体系,提升核心表、业务表的质量监控覆盖率,从而更快更全的发现质量问题,提升数据质量。


更多历史内容详见:

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展

相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32698 79
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17753 20
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36684 19
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24758 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36662 15
重生之---我测阿里云U1实例(通用算力型)
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29838 52
下一篇
开通oss服务