基于Apache doris怎么构建数据中台(五)-数据质量管理

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 接入及后续的数据处理中质量怎么控制。

上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制


如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:


  • 缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。


  • 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。


  • 问题故障处理流程未闭环,点式解决现象常在;缺乏统一归档,没有形成体系的知识库。


  • 数据模型质量监控缺失,模型重复,基础模型与应用模型的关联度不足,形成信息孤岛。


  • 数据存储资源增长过快,不能监控细粒度资源内容。


围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。 从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。做到事前控制,事中处理,事后追踪。


事前(规则丰富多样):


  1. 定义数据监控规则


  1. 模板规则(字段规则,单表规则,多表规则)


  1. 自定规则(SQL),暂不实现


事中(数据流程监控):


  1. 监控和控制数据生成过程


  1. 稽核规则和ETL无缝对接


  1. 定时检查


  1. 数据清洗


事后(数据质量溯源):


  1. 邮件钉钉等及时预警


  1. 问题追踪处理、故障review


  1. 稽核报告查询


  1. 表打分及历史趋势查询


数据质量规则管理


数据质量关键流程步骤:


  1. 质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等。


  1. 提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准。


  1. 规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等。


  1. 执行检核:调度配置、调度执行、检核代码。


  1. 问题检核:检核问题展示、分类、质量分析、质量严重等级分类等。


  1. 分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识。


  1. 落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼。


  1. 知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。


  1. 可以对指定好的规则进行单次执行试运行,以调试规则的正确性


数据质量检验标准:


  • 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;


  • 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;


  • 合理性:主要包括格式、类型、值域和业务规则的合理有效;


  • 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;


  • 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。


第一阶段要完成的工作:


首先完成业务数据库的数据接入数据质量,从源头上保障接入数据的质量问题。在这一阶段其实我们是在做接入的ETL,基于技术规则和业务规则进行对数据进行数据清洗,转换加工,对于不符合数据规则的数据进行过滤处理,统一记录以便于后续的手动处理这也数据和反馈给业务系统进行处理。


  1. 根据业务实际情况,抽象定义各个业务的质量规则库,可以按照业务主题管理


  1. 定义通用的数据处理规则模板,比如:日期格式,是否是数字,字符串长度是否超长等


  1. 通过接入的业务元数据,对表和字段进行数据规则定义,通用规则可以从规则库进行选择


  1. 通过统一的规则处理引擎SDK,嵌入到Flink 实时流处理引擎中对数据进行规则判断


  1. 符合规则的数据入数仓,不符合规则的数据,推送到异常数据队列(异常数据,来知道来源,异常类型,时间,严重等级等)


  1. 在异常数据UI界面展示异常数据,并可以对异常数据进行手动处理,重新推送到数仓(kafka-flink job处理)


  1. 数据质量看板(参照原型)


  1. 每日数据质量报告生成


数据质量管理流程


image.png


数据质量看板


提供统一的数据质量看板,快速了解每天数据质量问题及趋势。并能及时进行追踪处理

image.png


数据质量规则定义及管理


提供规则的可视化定义,试跑,发布,异常数据处理,规则模板管理等


image.png


规则定义


image.png


数据接入任务监控


image.png


异常数据监控


image.png


任务流程监控


这里我们是集成海豚调度,所有的任务都是在这里定义和运行,做到统一监控


image.png


对于数仓内部的数据质量,目前只是做了任务作业监控及预警,及时发现和定位问题,然后有数据开发及分析人员介入进行手动处理和解决问题。




相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
1天前
|
SQL 存储 数据处理
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
14 1
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
|
26天前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
16天前
|
SQL 存储 Apache
Apache Doris 3.0.3 版本正式发布
亲爱的社区小伙伴们,Apache Doris 3.0.3 版本已于 2024 年 12 月 02 日正式发布。该版本进一步提升了系统的性能及稳定性,欢迎大家下载体验。
|
9天前
|
弹性计算 自然语言处理 数据库
通过阿里云Milvus和LangChain快速构建LLM问答系统
本文介绍如何通过整合阿里云Milvus、阿里云DashScope Embedding模型与阿里云PAI(EAS)模型服务,构建一个由LLM(大型语言模型)驱动的问题解答应用,并着重演示了如何搭建基于这些技术的RAG对话系统。
|
1月前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
27天前
|
消息中间件 Java Kafka
Spring Boot 与 Apache Kafka 集成详解:构建高效消息驱动应用
Spring Boot 与 Apache Kafka 集成详解:构建高效消息驱动应用
42 1
|
1月前
|
SQL 存储 数据处理
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
Apache Doris 物化视图进行了支持。**早期版本中,Doris 支持同步物化视图;从 2.1 版本开始,正式引入异步物化视图,[并在 3.0 版本中完善了这一功能](https://www.selectdb.com/blog/1058)。**
|
1月前
|
SQL 存储 Java
Apache Doris 2.1.7 版本正式发布
亲爱的社区小伙伴们,**Apache Doris 2.1.7 版本已于 2024 年 11 月 10 日正式发布。**2.1.7 版本持续升级改进,同时在湖仓一体、异步物化视图、半结构化数据管理、查询优化器、执行引擎、存储管理、以及权限管理等方面完成了若干修复。欢迎大家下载使用。
|
12天前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
293 33
The Past, Present and Future of Apache Flink
|
2月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
848 13
Apache Flink 2.0-preview released

推荐镜像

更多