基于Apache doris怎么构建数据中台(五)-数据质量管理

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 接入及后续的数据处理中质量怎么控制。

上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制


如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:


  • 缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。


  • 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。


  • 问题故障处理流程未闭环,点式解决现象常在;缺乏统一归档,没有形成体系的知识库。


  • 数据模型质量监控缺失,模型重复,基础模型与应用模型的关联度不足,形成信息孤岛。


  • 数据存储资源增长过快,不能监控细粒度资源内容。


围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。 从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。做到事前控制,事中处理,事后追踪。


事前(规则丰富多样):


  1. 定义数据监控规则


  1. 模板规则(字段规则,单表规则,多表规则)


  1. 自定规则(SQL),暂不实现


事中(数据流程监控):


  1. 监控和控制数据生成过程


  1. 稽核规则和ETL无缝对接


  1. 定时检查


  1. 数据清洗


事后(数据质量溯源):


  1. 邮件钉钉等及时预警


  1. 问题追踪处理、故障review


  1. 稽核报告查询


  1. 表打分及历史趋势查询


数据质量规则管理


数据质量关键流程步骤:


  1. 质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等。


  1. 提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准。


  1. 规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等。


  1. 执行检核:调度配置、调度执行、检核代码。


  1. 问题检核:检核问题展示、分类、质量分析、质量严重等级分类等。


  1. 分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识。


  1. 落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼。


  1. 知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。


  1. 可以对指定好的规则进行单次执行试运行,以调试规则的正确性


数据质量检验标准:


  • 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;


  • 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;


  • 合理性:主要包括格式、类型、值域和业务规则的合理有效;


  • 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;


  • 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。


第一阶段要完成的工作:


首先完成业务数据库的数据接入数据质量,从源头上保障接入数据的质量问题。在这一阶段其实我们是在做接入的ETL,基于技术规则和业务规则进行对数据进行数据清洗,转换加工,对于不符合数据规则的数据进行过滤处理,统一记录以便于后续的手动处理这也数据和反馈给业务系统进行处理。


  1. 根据业务实际情况,抽象定义各个业务的质量规则库,可以按照业务主题管理


  1. 定义通用的数据处理规则模板,比如:日期格式,是否是数字,字符串长度是否超长等


  1. 通过接入的业务元数据,对表和字段进行数据规则定义,通用规则可以从规则库进行选择


  1. 通过统一的规则处理引擎SDK,嵌入到Flink 实时流处理引擎中对数据进行规则判断


  1. 符合规则的数据入数仓,不符合规则的数据,推送到异常数据队列(异常数据,来知道来源,异常类型,时间,严重等级等)


  1. 在异常数据UI界面展示异常数据,并可以对异常数据进行手动处理,重新推送到数仓(kafka-flink job处理)


  1. 数据质量看板(参照原型)


  1. 每日数据质量报告生成


数据质量管理流程


image.png


数据质量看板


提供统一的数据质量看板,快速了解每天数据质量问题及趋势。并能及时进行追踪处理

image.png


数据质量规则定义及管理


提供规则的可视化定义,试跑,发布,异常数据处理,规则模板管理等


image.png


规则定义


image.png


数据接入任务监控


image.png


异常数据监控


image.png


任务流程监控


这里我们是集成海豚调度,所有的任务都是在这里定义和运行,做到统一监控


image.png


对于数仓内部的数据质量,目前只是做了任务作业监控及预警,及时发现和定位问题,然后有数据开发及分析人员介入进行手动处理和解决问题。




相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
2月前
|
人工智能 缓存 监控
使用LangChain4j构建Java AI智能体:让大模型学会使用工具
AI智能体是大模型技术的重要演进方向,它使模型能够主动使用工具、与环境交互,以完成复杂任务。本文详细介绍如何在Java应用中,借助LangChain4j框架构建一个具备工具使用能力的AI智能体。我们将创建一个能够进行数学计算和实时信息查询的智能体,涵盖工具定义、智能体组装、记忆管理以及Spring Boot集成等关键步骤,并展示如何通过简单的对话界面与智能体交互。
913 1
|
2月前
|
SQL 人工智能 数据挖掘
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris 4.0 原生集成 LLM 函数,将大语言模型能力深度融入 SQL 引擎,实现文本处理智能化与数据分析一体化。通过十大函数,支持智能客服、内容分析、金融风控等场景,提升实时决策效率。采用资源池化管理,保障数据一致性,降低传输开销,毫秒级完成 AI 分析。结合缓存复用、并行执行与权限控制,兼顾性能、成本与安全,推动数据库向 AI 原生演进。
282 0
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
|
2月前
|
人工智能 Java API
构建基于Java的AI智能体:使用LangChain4j与Spring AI实现RAG应用
当大模型需要处理私有、实时的数据时,检索增强生成(RAG)技术成为了核心解决方案。本文深入探讨如何在Java生态中构建具备RAG能力的AI智能体。我们将介绍新兴的Spring AI项目与成熟的LangChain4j框架,详细演示如何从零开始构建一个能够查询私有知识库的智能问答系统。内容涵盖文档加载与分块、向量数据库集成、语义检索以及与大模型的最终合成,并提供完整的代码实现,为Java开发者开启构建复杂AI智能体的大门。
1408 58
|
2月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
476 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
存储 人工智能 机器人
99 0
|
2月前
|
人工智能 安全 数据库
构建可扩展的 AI 应用:LangChain 与 MCP 服务的集成模式
本文以LangChain和文件系统服务器为例,详细介绍了MCP的配置、工具创建及调用流程,展现了其“即插即用”的模块化优势,为构建复杂AI应用提供了强大支持。
|
3月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
782 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
3月前
|
人工智能 运维 监控
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
本文基于 Apache Doris 数据运维治理 Agent 展开讨论,如何让 AI 成为 Doris 数据运维工程师和数据治理专家的智能助手,并在某些场景下实现对人工操作的全面替代。这种变革不仅仅是技术层面的进步,更是数据运维治理思维方式的根本性转变:从“被动响应”到“主动预防”,从“人工判断”到“智能决策”,从“孤立处理”到“协同治理”。
616 11
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
|
3月前
|
消息中间件 OLAP Kafka
Apache Doris 实时更新技术揭秘:为何在 OLAP 领域表现卓越?
Apache Doris 为何在 OLAP 领域表现卓越?凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现,在分析领域展现了独特的实时更新能力。
366 9
|
3月前
|
SQL 存储 JSON
Apache Doris 2.1.10 版本正式发布
亲爱的社区小伙伴们,Apache Doris 2.1.10 版本已正式发布。2.1.10 版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。
232 5

热门文章

最新文章

推荐镜像

更多