数据质量最佳实践(2):异常数据归档

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。

在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。

一、场景介绍

场景1:某电商公司通过手机号进行会员广告投放,历史处理的手机号都是11位,突然有一天发现了质量监控报错,通过查看异常数据,发现是有一个新的采集渠道采集上来的手机号是带了国际电话区号(+86)的未处理数据,处理后下游可以正常使用。

场景2:某集团公司希望对员工数据进行校验,查看哪些员工的联系方式等信息没有填写,需要将信息缺失的员工数据下载到一个excel中,让各个子公司填写后重新上传管理。

场景3:某财务部门发现账单核对后存在差异,通过对销售金额数据进行校验,发现表格中有一个商品的总金额 <>单价*销售量,经过排查,是复制数据时仅复制了值,没有复制公式导致数据出错。

从上面的场景中可以看到,数据质量校验和异常数据归档在业务、管理、财务等多个场景都可以帮助快速定位问题,提升数据质量。

二、产品能力介绍

1、开启异常归档

在质量规则配置时,可以选择开启异常归档,开启异常归档后,可以将质量校验过程中的异常数据,存储到指定位置,用于后续的下载分析等用途。

image.png

1.1、归档模式

1、只归档异常字段:只去重归档当前监控字段,适用于通过单字段就可以完整确定异常数据的情况。

2、归档完整记录:归档异常数据所在的整条记录,适用于必须通过完整记录才能定位异常数据的情况。

因为归档完整记录会极大增加归档数据量,建议正常情况下都使用只归档异常字段。

1.2、归档位置

1. 默认文件服务器:存储在默认的位置,后续只能进行数据的下载。默认位置的存储大小有限制,单个规则单次最多归档100条,建议只归档异常字段或小数据量时使用。

2. 异常数据归档表:可以将异常数据存储到表中,后续可以直接读表进行数据分析或数据下载。自定义存储的大小和生命周期可以由用户进行统一管理,有更高的灵活性,单个规则单次最多归档10000条,推荐使用。需要注意的是,异常归档表需要满足特定的格式要求,否则会报错,详见异常归档表配置

3. 异常数据归档后可以在校验记录页面下载,数据下载限制1000条本次执行的异常数据。如果有更多数据需要归档后查看,建议归档到异常归档表后直接在表中查看。

2、数据下载和分析

2.1、数据下载

可以在校验记录页面,下载本次校验的异常数据,用于后续分析。需要注意的是,数据下载有一定的条数限制,数据量大的情况下建议到异常归档表中查看异常数据。

image (1).png

2.2、分析异常归档表

可以在即席查询和代码任务中,针对异常归档表中的异常数据进行更灵活的分析,从而发现更复杂的数据质量问题。

image (2).png

3、异常归档表配置

只有配置了异常归档表后,才可以将异常数据归档到表。具体配置方式为:

进入质量模块,点击左侧质量规则,点击具体一张质量监控表,进入监控详情,可以看到上方有异常归档的页面,点击进入异常归档表配置。

未配置异常归档表时,页面如下:

image (3).png

可以选择已有表或者新建一张表用于存储异常数据。

image (4).png

添加异常归档表后,可以在列表页进行统一的查看和管理

image (5).png

三、结语

以上就是关于本次Dataphin异常数据归档能力的完整介绍。利用好质量校验过程中的异常归档,可以帮助开发人员和业务人员快速定位质量问题,并修复质量问题。建议所有关键数据的质量校验都开启异常数据归档,帮助构建更加高质量的数据

更多历史内容详见:

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展

数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率

相关文章
|
7月前
|
NoSQL 关系型数据库 Redis
DMS问题之归档后数据量和大小没变化如何解决
DMS(Data Management Service)是阿里云提供的一站式数据管理服务,支持数据开发、维护、治理等多种功能;本合集着重于介绍DMS的功能特点、操作流程和最佳实践,帮助用户高效进行数据管理和维护。
|
2月前
|
数据采集 安全 API
数据治理:实现原始数据不出域,确保数据可用不可见的创新策略
在数字化时代,数据成为企业宝贵资产,驱动业务决策与创新。然而,数据量激增和流通频繁带来了安全和管理挑战。“原始数据不出域,数据可用不可见”的治理理念应运而生,通过数据脱敏、沙箱技术和安全多方计算等手段,确保数据安全共享与高效利用。这一理念已广泛应用于金融、医疗等行业,提升了数据价值和企业竞争力。
|
4月前
|
存储 数据采集 SQL
数据平台问题之数据资产管理混乱的问题如何解决
数据平台问题之数据资产管理混乱的问题如何解决
|
4月前
|
SQL 安全 测试技术
【数据守护者必备】SQL数据备份与恢复策略全解析:从全量到日志备份,手把手教你确保企业信息万无一失的实战技巧!
【8月更文挑战第31天】数据库是企业核心业务数据的基石,为防止硬件故障、软件错误或人为失误导致的数据丢失,制定可靠的备份与恢复策略至关重要。本文通过一个在线购物平台的案例,详细介绍了使用 SQL Server 进行全量备份、差异备份及事务日志备份的方法,并演示了如何利用 SQL Server Agent 实现自动化备份任务。此外,还提供了数据恢复的具体步骤和测试建议,确保数据安全与业务连续性。
212 0
|
5月前
|
缓存 前端开发 搜索推荐
通用快照方案问题之快照准确性的保障如何解决
通用快照方案问题之快照准确性的保障如何解决
65 0
|
5月前
|
监控
监控治理问题之想规范化异常抛出和日志使用以降低CDO报警噪音,如何解决
监控治理问题之想规范化异常抛出和日志使用以降低CDO报警噪音,如何解决
|
7月前
|
数据采集 分布式计算 监控
DataWork数据处理问题之数据质量警告如何解决
DataWork数据处理是指使用DataWorks平台进行数据开发、数据处理和数据治理的活动;本合集将涵盖DataWork数据处理的工作流程、工具使用和问题排查,帮助用户提高数据处理的效率和质量。
|
数据采集 监控 数据管理
数据质量最佳实践(4):支持范围和多级分区质量监控+按项目和个人管理数据质量【Dataphin V3.11】
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在Dataphin V3.11版本中,质量新增了下面两个能力: 1、针对复杂的业务分区的校验能力 2、按照项目和个人管理数据质量
467 1
|
数据采集 存储 监控
数据质量最佳实践(2):通过归档和分析异常数据,快速定位质量问题
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。
550 0
数据质量最佳实践(2):通过归档和分析异常数据,快速定位质量问题
|
数据采集 数据管理 数据挖掘
谈谈主数据建设过程中历史数据清理策略和方法
菜买回来后,我们就要根据菜品的需要对它们进行处理了,但无论如何处理,在此之前们都需要对它们先进行清洗一下,将上面的脏东西诸如泥土、农药、血水等清洗掉。
谈谈主数据建设过程中历史数据清理策略和方法
下一篇
DataWorks