数据资产的质量管理

简介: 数据资产的质量管理

基本概念:

数据资产质量:是指数仓数据资产表的质量,包含表的设计质量、开发质量、产出质量;

  • 设计质量:指资产表在业务数据链路中的定位是否合理,信息覆盖与整合是否达到要求;
  • 开发质量:指资产表在数据开发编码过程中,是否遵循约定的开发规范,数据加工逻辑是否正确;
  • 产出质量:指资产表对应任务的产出时间是否符合预期,产出结果数据是否达到要求;

影响因素:

  • 信息因素:开发人员是否了解资产表的具体需求目标,是否了解具体的业务数据链路和信息分布;
  • 工具因素:平台工具是否稳定,是否有DQC能力,是否有优先级控制能力
  • 流程因素:研发流程是否合理,是否有代码质量卡点,是否有数据质量卡点,是否有执行保障机制
  • 人为因素:人员编码水平是否打标,流程执行是否到位,需求理解是否到位

流程设计:

流程管理:

  • 需求文档落地:

数据类需求文档是数据开发前的资料收集与整理的重要产出,基于文档和业务方对齐具体数据需求,包括各种数据来源信息、加工逻辑信息、结果数据格式等等;

  • 需求迭代记录:

项目类数据需求往往因进度问题,需求调整较多,为保证信息对齐,建议使用迭代开发,使用aone或语雀 记录迭代需求;

非项目类需求迭代,必须提aone需求单排期处理;

  • 资产设计:

中间层资产按照中间层资产设计要求,需要在资产关联大图上标明,并给出明确的 实体&单据 定义,防止重复建设;

项目类应用层资产按需求逻辑,明确数据资产间的流转依赖关系,给出明确的数据 维度&粒度 定义,保证资产关系清晰;

非项目应用层资产按需求文档,给出明确的数据 维度&粒度 定义,保证资产关系清晰;

  • 数据自测:

所有数据表交付验收前,必须进行自测,保证数据表数据量符合预期,保证数据粒度符合预期,保证指标字段取值符合预期;

可通过查询数据进行观察,后期由平台提供校验工具,方便进行数据自测;

  • QA验收:

涉及业务回流的资产表,由业务QA同学负责验证数据质量;因数仓不存在测试环境,所以,可与QA同学沟通,采用uat、预发环境验证;

部分特殊情况下,可在数仓dev环境 人工写入数据进行逻辑验证;

  • 业务验收:

非业务回流类资产表,如报表等,由业务同学自行验收,部分高保障报表(如高管看板)可引入数据质量管理团队相关同学进行验收;

因统计指标等数据逻辑加工复杂,业务同学发现问题周期较长,可与业务同学约定部分验证case,通过后可先上线,再迭代;

  • 任务发布:

所有回流类任务发布,必须按要求注册业务风险场景( 无系统支持时 可采用文档记录),按业务产出要求配置任务优先级(如基线控制);

对于高风险场景任务,要求进行代码review ,保证代码质量;

  • DQC配置:

按需进行数据质量监控规则配置,要求中间表必须配置空表检测、重复值检测;高风险应用表必须配置空表检测、重复值检测、业务逻辑检测等;

全部采用强规则控制,检测异常时中断任务并告警,防止影响下游任务;

  • 资产文档更新:

中间层数据资产表上线后需要更新中间层资产文档,方便进行中间层数据资产管理;

项目类应用层数据资产表上线后,可在各自项目文档库维护,方便需求方查看项目产出数据资产情况;

非项目应用层数据资产表可不做要求,按需求交付即可;

目录
相关文章
|
人工智能 安全 API
如何在数字世界复刻一个高还原、高拟真的“你”
通过阿里云智能媒体服务IMS完成数字人形象训练、人声克隆定制,并使用Timeline实现视频合成及创作,打造一个“声形俱佳”的数字分身。
422 0
|
8月前
|
域名解析 网络协议 Ubuntu
DHCP与DNS的配置
通过这些步骤,您可以在Linux环境下成功配置和验证DHCP和DNS服务。希望这些内容对您的学习和工作有所帮助。
679 27
|
达摩院 Cloud Native 安全
数智洞察|阿里云发布《企业数字化咨询服务白皮书》
本白皮书既是阿里云结合各行各业数百个数字化项目的经验总结,更是企业数字化转型建设的实践指导。
3622 0
|
人工智能 自然语言处理 算法
阿里云智能客服知识运营白皮书
        阿里云智能客服知识运营白皮书的撰写,是协调包括算法工程师、开发工程师、产品设计师、AIT 人工智能训练师人员等多角色,将技术理论基础和实际实践经验进行结合,形成业内首部智能客服知识运营白皮书。白皮书以阿里云智能客服系统为应用标的,面向智能客服中的知识定义、知识应用、知识梳理方法三大环节进行描述和说明,希望为智能客服领域的知识应用提供具备指导性意义的方法论。一直以来,智能客服领域的知
752 1
阿里云智能客服知识运营白皮书
|
12月前
|
JavaScript 前端开发 NoSQL
深入浅出Node.js后端开发
本文将引导你了解Node.js的基础知识,包括安装、运行环境搭建以及简单的代码示例。通过阅读本文,你将学会如何利用Node.js进行后端开发,并理解异步编程和事件驱动模型的核心概念。文章还将介绍一些实用的库和框架,帮助你快速开始Node.js项目。
184 4
|
Java Android开发
android 设置系统时间的流程
android 设置系统时间的方法
911 2
|
9月前
|
人工智能 算法 芯片
天天都在说的“算力”到底是个啥?一文全讲透!
算力是数字经济发展的重要支撑,尤其在AI和大数据应用中起着关键作用。阿里云致力于构建全球领先的算力基础设施,助力各行业数字化转型。吴泳铭和马云均强调了算力在未来科技竞争中的核心地位。2023年底,我国算力总规模达230EFLOPS,位居全球第二。算力分为通用、智能和超算算力,广泛应用于人工智能训练与推理等场景。中国正加速建设智算中心,推动算力产业链发展,并注重绿色低碳和智能运维,以应对日益增长的计算需求。
12577 19
|
10月前
|
数据可视化 Python
使用Python进行数据可视化的初学者指南
在数据的海洋里,我们如何能够不迷失方向?通过数据可视化的力量,我们可以将复杂的数据集转化为易于理解的图形和图表。本文旨在为初学者提供一份简明的入门手册,介绍如何使用Python中的Matplotlib库来揭示数据背后的故事。我们将从基础的图表开始,逐步深入到更高级的可视化技术,确保每个步骤都清晰易懂,让初学者也能轻松上手。让我们开始绘制属于你自己的数据图谱吧!
|
12月前
|
消息中间件 存储 Kafka
面试题:Kafka如何保证高可用?有图有真相
面试题:Kafka如何保证高可用?有图有真相
325 0
|
安全 Oracle 关系型数据库
关系型数据库Oracle安全性
【7月更文挑战第17天】
234 5