数据质量最佳实践(2):异常数据归档

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。

在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。

一、场景介绍

场景1:某电商公司通过手机号进行会员广告投放,历史处理的手机号都是11位,突然有一天发现了质量监控报错,通过查看异常数据,发现是有一个新的采集渠道采集上来的手机号是带了国际电话区号(+86)的未处理数据,处理后下游可以正常使用。

场景2:某集团公司希望对员工数据进行校验,查看哪些员工的联系方式等信息没有填写,需要将信息缺失的员工数据下载到一个excel中,让各个子公司填写后重新上传管理。

场景3:某财务部门发现账单核对后存在差异,通过对销售金额数据进行校验,发现表格中有一个商品的总金额 <>单价*销售量,经过排查,是复制数据时仅复制了值,没有复制公式导致数据出错。

从上面的场景中可以看到,数据质量校验和异常数据归档在业务、管理、财务等多个场景都可以帮助快速定位问题,提升数据质量。

二、产品能力介绍

1、开启异常归档

在质量规则配置时,可以选择开启异常归档,开启异常归档后,可以将质量校验过程中的异常数据,存储到指定位置,用于后续的下载分析等用途。

image.png

1.1、归档模式

1、只归档异常字段:只去重归档当前监控字段,适用于通过单字段就可以完整确定异常数据的情况。

2、归档完整记录:归档异常数据所在的整条记录,适用于必须通过完整记录才能定位异常数据的情况。

因为归档完整记录会极大增加归档数据量,建议正常情况下都使用只归档异常字段。

1.2、归档位置

1. 默认文件服务器:存储在默认的位置,后续只能进行数据的下载。默认位置的存储大小有限制,单个规则单次最多归档100条,建议只归档异常字段或小数据量时使用。

2. 异常数据归档表:可以将异常数据存储到表中,后续可以直接读表进行数据分析或数据下载。自定义存储的大小和生命周期可以由用户进行统一管理,有更高的灵活性,单个规则单次最多归档10000条,推荐使用。需要注意的是,异常归档表需要满足特定的格式要求,否则会报错,详见异常归档表配置

3. 异常数据归档后可以在校验记录页面下载,数据下载限制1000条本次执行的异常数据。如果有更多数据需要归档后查看,建议归档到异常归档表后直接在表中查看。

2、数据下载和分析

2.1、数据下载

可以在校验记录页面,下载本次校验的异常数据,用于后续分析。需要注意的是,数据下载有一定的条数限制,数据量大的情况下建议到异常归档表中查看异常数据。

image (1).png

2.2、分析异常归档表

可以在即席查询和代码任务中,针对异常归档表中的异常数据进行更灵活的分析,从而发现更复杂的数据质量问题。

image (2).png

3、异常归档表配置

只有配置了异常归档表后,才可以将异常数据归档到表。具体配置方式为:

进入质量模块,点击左侧质量规则,点击具体一张质量监控表,进入监控详情,可以看到上方有异常归档的页面,点击进入异常归档表配置。

未配置异常归档表时,页面如下:

image (3).png

可以选择已有表或者新建一张表用于存储异常数据。

image (4).png

添加异常归档表后,可以在列表页进行统一的查看和管理

image (5).png

三、结语

以上就是关于本次Dataphin异常数据归档能力的完整介绍。利用好质量校验过程中的异常归档,可以帮助开发人员和业务人员快速定位质量问题,并修复质量问题。建议所有关键数据的质量校验都开启异常数据归档,帮助构建更加高质量的数据

更多历史内容详见:

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展

数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率

相关文章
|
4月前
|
数据采集 存储 监控
DataWork问题之数据质量规则如何解决
DataWork数据处理是指使用DataWorks平台进行数据开发、数据处理和数据治理的活动;本合集将涵盖DataWork数据处理的工作流程、工具使用和问题排查,帮助用户提高数据处理的效率和质量。
|
2月前
|
缓存 前端开发 搜索推荐
通用快照方案问题之快照准确性的保障如何解决
通用快照方案问题之快照准确性的保障如何解决
44 0
|
2月前
|
监控
监控治理问题之想规范化异常抛出和日志使用以降低CDO报警噪音,如何解决
监控治理问题之想规范化异常抛出和日志使用以降低CDO报警噪音,如何解决
|
4月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用合集之有提供机制来检查和报告数据同步的完整性吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
数据采集 分布式计算 监控
DataWork数据处理问题之数据质量警告如何解决
DataWork数据处理是指使用DataWorks平台进行数据开发、数据处理和数据治理的活动;本合集将涵盖DataWork数据处理的工作流程、工具使用和问题排查,帮助用户提高数据处理的效率和质量。
|
4月前
|
数据采集 分布式计算 监控
DataWork数据处理问题之数据质量报警如何解决
DataWork数据处理是指使用DataWorks平台进行数据开发、数据处理和数据治理的活动;本合集将涵盖DataWork数据处理的工作流程、工具使用和问题排查,帮助用户提高数据处理的效率和质量。
|
4月前
|
SQL 存储 数据库
使用NineData OnlineDML:轻松处理大规模数据变更
在线DML,无锁变更数据,保障业务运行。NineData助你解决大批量数据变更难题。
83 0
|
数据采集 监控 数据管理
数据质量最佳实践(4):支持范围和多级分区质量监控+按项目和个人管理数据质量【Dataphin V3.11】
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在Dataphin V3.11版本中,质量新增了下面两个能力: 1、针对复杂的业务分区的校验能力 2、按照项目和个人管理数据质量
434 1
|
数据采集 存储 监控
数据质量最佳实践(2):通过归档和分析异常数据,快速定位质量问题
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。
515 0
数据质量最佳实践(2):通过归档和分析异常数据,快速定位质量问题
|
数据采集 SQL 关系型数据库
最佳实践—如何优化数据全量抽取
本文介绍了在应用内通过代码高效抽取数据的方法。
247 0