基于Apache doris怎么构建数据中台(五)-数据质量管理

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 接入及后续的数据处理中质量怎么控制。

上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制


如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:


  • 缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。


  • 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。


  • 问题故障处理流程未闭环,点式解决现象常在;缺乏统一归档,没有形成体系的知识库。


  • 数据模型质量监控缺失,模型重复,基础模型与应用模型的关联度不足,形成信息孤岛。


  • 数据存储资源增长过快,不能监控细粒度资源内容。


围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。 从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。做到事前控制,事中处理,事后追踪。


事前(规则丰富多样):


  1. 定义数据监控规则


  1. 模板规则(字段规则,单表规则,多表规则)


  1. 自定规则(SQL),暂不实现


事中(数据流程监控):


  1. 监控和控制数据生成过程


  1. 稽核规则和ETL无缝对接


  1. 定时检查


  1. 数据清洗


事后(数据质量溯源):


  1. 邮件钉钉等及时预警


  1. 问题追踪处理、故障review


  1. 稽核报告查询


  1. 表打分及历史趋势查询


数据质量规则管理


数据质量关键流程步骤:


  1. 质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等。


  1. 提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准。


  1. 规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等。


  1. 执行检核:调度配置、调度执行、检核代码。


  1. 问题检核:检核问题展示、分类、质量分析、质量严重等级分类等。


  1. 分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识。


  1. 落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼。


  1. 知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。


  1. 可以对指定好的规则进行单次执行试运行,以调试规则的正确性


数据质量检验标准:


  • 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;


  • 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;


  • 合理性:主要包括格式、类型、值域和业务规则的合理有效;


  • 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;


  • 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。


第一阶段要完成的工作:


首先完成业务数据库的数据接入数据质量,从源头上保障接入数据的质量问题。在这一阶段其实我们是在做接入的ETL,基于技术规则和业务规则进行对数据进行数据清洗,转换加工,对于不符合数据规则的数据进行过滤处理,统一记录以便于后续的手动处理这也数据和反馈给业务系统进行处理。


  1. 根据业务实际情况,抽象定义各个业务的质量规则库,可以按照业务主题管理


  1. 定义通用的数据处理规则模板,比如:日期格式,是否是数字,字符串长度是否超长等


  1. 通过接入的业务元数据,对表和字段进行数据规则定义,通用规则可以从规则库进行选择


  1. 通过统一的规则处理引擎SDK,嵌入到Flink 实时流处理引擎中对数据进行规则判断


  1. 符合规则的数据入数仓,不符合规则的数据,推送到异常数据队列(异常数据,来知道来源,异常类型,时间,严重等级等)


  1. 在异常数据UI界面展示异常数据,并可以对异常数据进行手动处理,重新推送到数仓(kafka-flink job处理)


  1. 数据质量看板(参照原型)


  1. 每日数据质量报告生成


数据质量管理流程


image.png


数据质量看板


提供统一的数据质量看板,快速了解每天数据质量问题及趋势。并能及时进行追踪处理

image.png


数据质量规则定义及管理


提供规则的可视化定义,试跑,发布,异常数据处理,规则模板管理等


image.png


规则定义


image.png


数据接入任务监控


image.png


异常数据监控


image.png


任务流程监控


这里我们是集成海豚调度,所有的任务都是在这里定义和运行,做到统一监控


image.png


对于数仓内部的数据质量,目前只是做了任务作业监控及预警,及时发现和定位问题,然后有数据开发及分析人员介入进行手动处理和解决问题。




相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
11天前
|
人工智能 缓存 监控
使用LangChain4j构建Java AI智能体:让大模型学会使用工具
AI智能体是大模型技术的重要演进方向,它使模型能够主动使用工具、与环境交互,以完成复杂任务。本文详细介绍如何在Java应用中,借助LangChain4j框架构建一个具备工具使用能力的AI智能体。我们将创建一个能够进行数学计算和实时信息查询的智能体,涵盖工具定义、智能体组装、记忆管理以及Spring Boot集成等关键步骤,并展示如何通过简单的对话界面与智能体交互。
241 1
|
14天前
|
人工智能 Java API
构建基于Java的AI智能体:使用LangChain4j与Spring AI实现RAG应用
当大模型需要处理私有、实时的数据时,检索增强生成(RAG)技术成为了核心解决方案。本文深入探讨如何在Java生态中构建具备RAG能力的AI智能体。我们将介绍新兴的Spring AI项目与成熟的LangChain4j框架,详细演示如何从零开始构建一个能够查询私有知识库的智能问答系统。内容涵盖文档加载与分块、向量数据库集成、语义检索以及与大模型的最终合成,并提供完整的代码实现,为Java开发者开启构建复杂AI智能体的大门。
438 58
存储 人工智能 机器人
35 0
|
1月前
|
人工智能 安全 数据库
构建可扩展的 AI 应用:LangChain 与 MCP 服务的集成模式
本文以LangChain和文件系统服务器为例,详细介绍了MCP的配置、工具创建及调用流程,展现了其“即插即用”的模块化优势,为构建复杂AI应用提供了强大支持。
|
2月前
|
机器学习/深度学习 算法 大数据
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
|
3月前
|
数据采集 存储 分布式计算
一文读懂数据中台架构,高效构建企业数据价值
在数字化时代,企业面临数据分散、难以统一管理的问题。数据中台架构通过整合、清洗和管理数据,打破信息孤岛,提升决策效率。本文详解其核心组成、搭建步骤及常见挑战,助力企业高效用数。
1092 24
|
5月前
|
SQL 机器学习/深度学习 监控
构建数据中枢:数据中台指标体系如何赋能企业运营
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
5月前
|
存储 机器学习/深度学习 人工智能
使用 LangChain + Higress + Elasticsearch 构建 RAG 应用
本文介绍了如何利用LangChain、Higress和Elasticsearch快速构建RAG(检索增强生成)应用,实现企业知识的智能检索与问答。首先通过LangChain解析Markdown文档并写入Elasticsearch,接着部署Higress AI网关并配置ai-search插件以整合私有知识库与在线搜索功能。最后,通过实际案例展示了RAG查询流程及结果更新机制,确保内容准确性和时效性。文章还提供了相关参考资料以便进一步学习。
561 38
|
6月前
|
存储 人工智能 监控
通过Milvus和Langchain快速构建基于百炼大模型的LLM问答系统
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。

热门文章

最新文章

推荐镜像

更多