数据质量最佳实践(2):异常数据归档

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。

在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。

一、场景介绍

场景1:某电商公司通过手机号进行会员广告投放,历史处理的手机号都是11位,突然有一天发现了质量监控报错,通过查看异常数据,发现是有一个新的采集渠道采集上来的手机号是带了国际电话区号(+86)的未处理数据,处理后下游可以正常使用。

场景2:某集团公司希望对员工数据进行校验,查看哪些员工的联系方式等信息没有填写,需要将信息缺失的员工数据下载到一个excel中,让各个子公司填写后重新上传管理。

场景3:某财务部门发现账单核对后存在差异,通过对销售金额数据进行校验,发现表格中有一个商品的总金额 <>单价*销售量,经过排查,是复制数据时仅复制了值,没有复制公式导致数据出错。

从上面的场景中可以看到,数据质量校验和异常数据归档在业务、管理、财务等多个场景都可以帮助快速定位问题,提升数据质量。

二、产品能力介绍

1、开启异常归档

在质量规则配置时,可以选择开启异常归档,开启异常归档后,可以将质量校验过程中的异常数据,存储到指定位置,用于后续的下载分析等用途。

image.png

1.1、归档模式

1、只归档异常字段:只去重归档当前监控字段,适用于通过单字段就可以完整确定异常数据的情况。

2、归档完整记录:归档异常数据所在的整条记录,适用于必须通过完整记录才能定位异常数据的情况。

因为归档完整记录会极大增加归档数据量,建议正常情况下都使用只归档异常字段。

1.2、归档位置

1. 默认文件服务器:存储在默认的位置,后续只能进行数据的下载。默认位置的存储大小有限制,单个规则单次最多归档100条,建议只归档异常字段或小数据量时使用。

2. 异常数据归档表:可以将异常数据存储到表中,后续可以直接读表进行数据分析或数据下载。自定义存储的大小和生命周期可以由用户进行统一管理,有更高的灵活性,单个规则单次最多归档10000条,推荐使用。需要注意的是,异常归档表需要满足特定的格式要求,否则会报错,详见异常归档表配置

3. 异常数据归档后可以在校验记录页面下载,数据下载限制1000条本次执行的异常数据。如果有更多数据需要归档后查看,建议归档到异常归档表后直接在表中查看。

2、数据下载和分析

2.1、数据下载

可以在校验记录页面,下载本次校验的异常数据,用于后续分析。需要注意的是,数据下载有一定的条数限制,数据量大的情况下建议到异常归档表中查看异常数据。

image (1).png

2.2、分析异常归档表

可以在即席查询和代码任务中,针对异常归档表中的异常数据进行更灵活的分析,从而发现更复杂的数据质量问题。

image (2).png

3、异常归档表配置

只有配置了异常归档表后,才可以将异常数据归档到表。具体配置方式为:

进入质量模块,点击左侧质量规则,点击具体一张质量监控表,进入监控详情,可以看到上方有异常归档的页面,点击进入异常归档表配置。

未配置异常归档表时,页面如下:

image (3).png

可以选择已有表或者新建一张表用于存储异常数据。

image (4).png

添加异常归档表后,可以在列表页进行统一的查看和管理

image (5).png

三、结语

以上就是关于本次Dataphin异常数据归档能力的完整介绍。利用好质量校验过程中的异常归档,可以帮助开发人员和业务人员快速定位质量问题,并修复质量问题。建议所有关键数据的质量校验都开启异常数据归档,帮助构建更加高质量的数据

更多历史内容详见:

Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展

数据质量最佳实践(1):批量配置质量规则,快速提升质量覆盖率

相关文章
|
XML C# 数据格式
掌握了在Windows平台上查看DLL依赖的方法
掌握了在Windows平台上查看DLL依赖的方法
3922 4
|
2月前
|
人工智能 安全 算法
当赛博皇上给Ai设立三省六部
本文介绍一款创新开源系统,将中国古代“三省六部制”深度融入多智能体架构:以“太子”分拣需求、“中书”规划、“门下”审议、“六部”执行,实现AI团队协同处理复杂工程任务,兼具逻辑严谨性与文化巧思。
2230 1
当赛博皇上给Ai设立三省六部
|
存储 SQL 机器学习/深度学习
用户画像标签体系——从零开始搭建实时用户画像(三)
用户画像标签体系——从零开始搭建实时用户画像(三)
4096 0
用户画像标签体系——从零开始搭建实时用户画像(三)
|
存储 NoSQL 算法
8个 数据库性能优化方案,你知道几个?(建议收藏) 上
8个 数据库性能优化方案,你知道几个?(建议收藏) 上
2099 0
8个 数据库性能优化方案,你知道几个?(建议收藏) 上
|
10月前
|
监控 安全 测试技术
理解非功能需求---SRS软件需求规格指南系列
本文全面解析非功能需求(NFR),涵盖性能、安全性、可靠性、可用性、可扩展性等关键质量属性。内容包括定义、现实案例及最佳实践,帮助团队在软件开发生命周期中有效识别、记录与管理NFR,确保系统满足利益相关者期望与行业标准。
844 3
|
存储 前端开发 安全
强化用户体验与安全性:前端单点登录和统一认证的最佳实践与区别
互联网发展了这么多年,各种更新皆为了提供更好更安全的上网环境。同时为了提供更好的用户体验、减少用户反复输入用户名和密码的繁琐操作,并确保账户安全,前端领域中的单点登录(SSO)和统一认证(Unified Authentication)成为了重要概念。
强化用户体验与安全性:前端单点登录和统一认证的最佳实践与区别
|
11月前
|
缓存 人工智能 算法
lru算法设计与实现
本文详细介绍了LRU(Least Recently Used,最近最少使用)缓存淘汰策略的原理与实现。LRU的核心思想是:越近被访问的数据,未来被再次访问的可能性越大。文章通过Java语言实现了一个支持O(1)时间复杂度操作的LRU缓存
457 0
|
存储 人工智能 安全
阿里云 Confidential Al 最佳实践
本次分享的主题是阿里云 Confidential AI 最佳实践 ,由阿里云乾越分享。 1. 需求背景介绍 2. 大规模场景下面临的系统及安全风险 3. 计算栈的共享职责模型与用户信任边界的冲突 4. 传统计算、存储和网络安全技术中存在用户信任成本较高的问题 5. Confidential AI 方案实施模式 6. 基于CAI技术的阿里云Confidential Cloud Computing架构 7. Confidential AI on EGS DEMO 8. 阿里云全面应用Confidential AI 9. 完备的机密计算远程证明过程 10.发布《机密计算保障人工智能系统安全研究报告
884 1
ly~
|
供应链 监控 搜索推荐
大数据的应用场景
大数据在众多行业中的应用场景广泛,涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业,大数据用于风险评估、精准营销、反欺诈以及决策支持;零售业则应用于商品推荐、供应链管理和门店运营优化等;医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估;交通物流业通过大数据优化物流配送、交通管理和运输安全;制造业则在生产过程优化、设备维护和供应链协同方面受益;能源行业运用大数据提升智能电网管理和能源勘探效率;政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全;教育行业通过大数据实现个性化学习和资源优化配置;体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。
ly~
3678 2
|
消息中间件 存储 负载均衡
中间件消息队列与发布/订阅模型
【7月更文挑战第15天】
645 6