数据质量最佳实践(2):通过归档和分析异常数据,快速定位质量问题

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。

在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。


一、场景介绍

场景1:某电商公司通过手机号进行会员广告投放,历史处理的手机号都是11位,突然有一天发现了质量监控报错,通过查看异常数据,发现是有一个新的采集渠道采集上来的手机号是带了国际电话区号(+86)的未处理数据,处理后下游可以正常使用。

场景2:某集团公司希望对员工数据进行校验,查看哪些员工的联系方式等信息没有填写,需要将信息缺失的员工数据下载到一个excel中,让各个子公司填写后重新上传管理。

场景3:某财务部门发现账单核对后存在差异,通过对销售金额数据进行校验,发现表格中有一个商品的总金额 <>单价*销售量,经过排查,是复制数据时仅复制了值,没有复制公式导致数据出错。

从上面的场景中可以看到,数据质量校验和异常数据归档在业务、管理、财务等多个场景都可以帮助快速定位问题,提升数据质量。

二、产品能力介绍

1、开启异常归档

在质量规则配置时,可以选择开启异常归档,开启异常归档后,可以将质量校验过程中的异常数据,存储到指定位置,用于后续的下载分析等用途。

image.png

1.1、归档模式

1、只归档异常字段:只去重归档当前监控字段,适用于通过单字段就可以完整确定异常数据的情况。

2、归档完整记录:归档异常数据所在的整条记录,适用于必须通过完整记录才能定位异常数据的情况。

因为归档完整记录会极大增加归档数据量,建议正常情况下都使用只归档异常字段。

1.2、归档位置

1. 默认文件服务器:存储在默认的位置,后续只能进行数据的下载。默认位置的存储大小有限制,单个规则单次最多归档100条,建议只归档异常字段或小数据量时使用。

2. 异常数据归档表:可以将异常数据存储到表中,后续可以直接读表进行数据分析或数据下载。自定义存储的大小和生命周期可以由用户进行统一管理,有更高的灵活性,单个规则单次最多归档10000条,推荐使用。需要注意的是,异常归档表需要满足特定的格式要求,否则会报错,详见异常归档表配置

3. 异常数据归档后可以在校验记录页面下载,数据下载限制1000条本次执行的异常数据。如果有更多数据需要归档后查看,建议归档到异常归档表后直接在表中查看。


2、数据下载和分析

2.1、数据下载

可以在校验记录页面,下载本次校验的异常数据,用于后续分析。需要注意的是,数据下载有一定的条数限制,数据量大的情况下建议到异常归档表中查看异常数据。

image (1).png

2.2、分析异常归档表

可以在即席查询和代码任务中,针对异常归档表中的异常数据进行更灵活的分析,从而发现更复杂的数据质量问题。

image (2).png


3、异常归档表配置

只有配置了异常归档表后,才可以将异常数据归档到表。具体配置方式为:

进入质量模块,点击左侧质量规则,点击具体一张质量监控表,进入监控详情,可以看到上方有异常归档的页面,点击进入异常归档表配置。

未配置异常归档表时,页面如下:

image (3).png

可以选择已有表或者新建一张表用于存储异常数据。

image (4).png

添加异常归档表后,可以在列表页进行统一的查看和管理

image (5).png


三、结语

以上就是关于本次Dataphin异常数据归档能力的完整介绍。利用好质量校验过程中的异常归档,可以帮助开发人员和业务人员快速定位质量问题,并修复质量问题。建议所有关键数据的质量校验都开启异常数据归档,帮助构建更加高质量的数据


更多历史内容详见:

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展

数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率

相关文章
|
存储 数据采集 数据挖掘
质量追溯系统方案
质量追溯系统方案
200 1
|
4月前
|
监控
监控治理问题之想规范化异常抛出和日志使用以降低CDO报警噪音,如何解决
监控治理问题之想规范化异常抛出和日志使用以降低CDO报警噪音,如何解决
|
6月前
|
数据采集 分布式计算 监控
DataWork数据处理问题之数据质量警告如何解决
DataWork数据处理是指使用DataWorks平台进行数据开发、数据处理和数据治理的活动;本合集将涵盖DataWork数据处理的工作流程、工具使用和问题排查,帮助用户提高数据处理的效率和质量。
|
数据采集 安全 网络安全
告警繁杂迷人眼,多源分析见月明
随着数字化浪潮的蓬勃兴起,网络安全问题日趋凸显,面对指数级增长的威胁和告警,传统的安全防御往往力不从心。网内业务逻辑不规范、安全设备技术不成熟都会导致安全设备触发告警。如何在海量众多安全告警中识别出真正的网络安全攻击事件成为安全运营的痛点问题。传统的分析手段,没有从威胁来源和攻击者视角来分析问题,从黑客攻击杀伤链来看,检测点和分析手段严重不足。因此需要从多源安全信息数据融合分析,实现网络攻击精准研判和处置。
126 1
|
SQL 数据库连接 API
应用性能管理场景下自动探查风险
本场景主要内容是体验如何在应用性能管理场景下,模拟数据的导入、读取和预处理的过程,了解自动探查风险。
|
弹性计算 Java 数据库连接
架构设计第七讲:数据巡检系统之daily&线上表结构自动化比对
架构设计第七讲:数据巡检系统之daily&线上表结构自动化比对
114 0
|
数据采集 SQL 数据可视化
Dataphin数据探查助力快速了解数据概貌,更早识别潜在风险
在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。
503 0
|
数据采集 监控 数据管理
数据质量最佳实践(4):支持范围和多级分区质量监控+按项目和个人管理数据质量【Dataphin V3.11】
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在Dataphin V3.11版本中,质量新增了下面两个能力: 1、针对复杂的业务分区的校验能力 2、按照项目和个人管理数据质量
460 1
|
SQL JSON 运维
如何使用下探分析定位多维指标异常根因
在系统运维过程中,关键指标的异常变化往往意味着服务异常、系统故障等等。因此我们往往会对一些关键指标进行自动巡检,例如异常检测和时序预测等等,及时感知指标的异常变化,了解系统的健康状况。对于复杂系统来说,感知到异常后直接在系统层面根因定位可能是十分困难的。因此我们需要一些手段缩小问题的排查范围或者直接定位问题,如使用 trace 根因分析等等。阿里云日志服务上线了下探分析功能,用于多维指标异常根因定位。我们将介绍该功能的使用场景和使用案例。
681 0
如何使用下探分析定位多维指标异常根因
|
数据采集 监控 数据管理
数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率
在Dataphin3.9版本中,Dataphin支持了批量创建质量规则,支持选择单个规则批量应用到多张质量监控表中,提升质量整体的配置效率和监控覆盖效果。
数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率