基于Apache doris怎么构建数据中台(五)-数据质量管理

简介: 接入及后续的数据处理中质量怎么控制。

上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制


如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:


  • 缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。


  • 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。


  • 问题故障处理流程未闭环,点式解决现象常在;缺乏统一归档,没有形成体系的知识库。


  • 数据模型质量监控缺失,模型重复,基础模型与应用模型的关联度不足,形成信息孤岛。


  • 数据存储资源增长过快,不能监控细粒度资源内容。


围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。 从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。做到事前控制,事中处理,事后追踪。


事前(规则丰富多样):


  1. 定义数据监控规则


  1. 模板规则(字段规则,单表规则,多表规则)


  1. 自定规则(SQL),暂不实现


事中(数据流程监控):


  1. 监控和控制数据生成过程


  1. 稽核规则和ETL无缝对接


  1. 定时检查


  1. 数据清洗


事后(数据质量溯源):


  1. 邮件钉钉等及时预警


  1. 问题追踪处理、故障review


  1. 稽核报告查询


  1. 表打分及历史趋势查询


数据质量规则管理


数据质量关键流程步骤:


  1. 质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等。


  1. 提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准。


  1. 规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等。


  1. 执行检核:调度配置、调度执行、检核代码。


  1. 问题检核:检核问题展示、分类、质量分析、质量严重等级分类等。


  1. 分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识。


  1. 落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼。


  1. 知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。


  1. 可以对指定好的规则进行单次执行试运行,以调试规则的正确性


数据质量检验标准:


  • 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;


  • 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;


  • 合理性:主要包括格式、类型、值域和业务规则的合理有效;


  • 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;


  • 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。


第一阶段要完成的工作:


首先完成业务数据库的数据接入数据质量,从源头上保障接入数据的质量问题。在这一阶段其实我们是在做接入的ETL,基于技术规则和业务规则进行对数据进行数据清洗,转换加工,对于不符合数据规则的数据进行过滤处理,统一记录以便于后续的手动处理这也数据和反馈给业务系统进行处理。


  1. 根据业务实际情况,抽象定义各个业务的质量规则库,可以按照业务主题管理


  1. 定义通用的数据处理规则模板,比如:日期格式,是否是数字,字符串长度是否超长等


  1. 通过接入的业务元数据,对表和字段进行数据规则定义,通用规则可以从规则库进行选择


  1. 通过统一的规则处理引擎SDK,嵌入到Flink 实时流处理引擎中对数据进行规则判断


  1. 符合规则的数据入数仓,不符合规则的数据,推送到异常数据队列(异常数据,来知道来源,异常类型,时间,严重等级等)


  1. 在异常数据UI界面展示异常数据,并可以对异常数据进行手动处理,重新推送到数仓(kafka-flink job处理)


  1. 数据质量看板(参照原型)


  1. 每日数据质量报告生成


数据质量管理流程


image.png


数据质量看板


提供统一的数据质量看板,快速了解每天数据质量问题及趋势。并能及时进行追踪处理

image.png


数据质量规则定义及管理


提供规则的可视化定义,试跑,发布,异常数据处理,规则模板管理等


image.png


规则定义


image.png


数据接入任务监控


image.png


异常数据监控


image.png


任务流程监控


这里我们是集成海豚调度,所有的任务都是在这里定义和运行,做到统一监控


image.png


对于数仓内部的数据质量,目前只是做了任务作业监控及预警,及时发现和定位问题,然后有数据开发及分析人员介入进行手动处理和解决问题。




相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
28天前
|
缓存 安全 Java
阿里云数据库 SelectDB 内核 Apache Doris 2.0.6 版本正式发布
阿里云数据库 SelectDB 内核 Apache Doris 2.0.6 版本正式发布
|
1月前
|
SQL 存储 JSON
阿里云数据库 SelectDB 内核 Apache Doris 2.1.0 版本发布:开箱盲测性能大幅优化,复杂查询性能提升 100%
亲爱的社区小伙伴们,Apache Doris 2.1.0 版本已于 2024 年 3 月 8 日正式发布,新版本开箱盲测性能大幅优化,在复杂查询性能方面提升100%,新增Arrow Flight接口加速数据读取千倍,支持半结构化数据类型与分析函数。异步多表物化视图优化查询并助力仓库分层建模。引入自增列、自动分区等存储优化,提升实时写入效率。Workload Group 资源隔离强化及运行时监控功能升级,保障多负载场景下的稳定性。新版本已经上线,欢迎大家下载使用!
阿里云数据库 SelectDB 内核 Apache Doris 2.1.0 版本发布:开箱盲测性能大幅优化,复杂查询性能提升 100%
|
1月前
|
消息中间件 存储 关系型数据库
使用Apache Hudi构建下一代Lakehouse
使用Apache Hudi构建下一代Lakehouse
38 0
|
2天前
|
消息中间件 存储 Java
深度探索:使用Apache Kafka构建高效Java消息队列处理系统
【4月更文挑战第17天】本文介绍了在Java环境下使用Apache Kafka进行消息队列处理的方法。Kafka是一个分布式流处理平台,采用发布/订阅模型,支持高效的消息生产和消费。文章详细讲解了Kafka的核心概念,包括主题、生产者和消费者,以及消息的存储和消费流程。此外,还展示了Java代码示例,说明如何创建生产者和消费者。最后,讨论了在高并发场景下的优化策略,如分区、消息压缩和批处理。通过理解和应用这些策略,可以构建高性能的消息系统。
|
28天前
|
存储 SQL 数据管理
阿里云数据库 SelectDB 内核 Apache Doris 如何基于自增列满足高效字典编码等典型场景需求|Deep Dive 系列
自增列的实现,使得 Apache Doris 可以在处理大规模时展示出更高的稳定性和可靠性。通过自增列,用户能够高效进行字典编码,显著提升了字符串精确去重以及查询的性能。使用自增列作为主键来存储明细数据,可以完美的解决明细数据更新的问题。同时,基于自增列,用户可以实现高效的分页机制,轻松应对深分页场景,有效过滤掉大量非必需数据,从而减轻数据库的负载压力,为用户带来了更加流畅和高效的数据处理体验。
|
28天前
|
Shell Linux 网络安全
【Shell 命令集合 网络通讯 】Linux 管理Apache HTTP服务器 httpd命令 使用指南
【Shell 命令集合 网络通讯 】Linux 管理Apache HTTP服务器 httpd命令 使用指南
29 0
|
28天前
|
Shell Linux Apache
【Shell 命令集合 网络通讯 】Linux 管理Apache HTTP服务器 apachectl命令 使用教程
【Shell 命令集合 网络通讯 】Linux 管理Apache HTTP服务器 apachectl命令 使用教程
156 1
|
28天前
|
SQL 数据可视化 Apache
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
阿里云数据库 SelectDB 内核 Doris 的 SQL 方言转换工具, Doris SQL Convertor 致力于提供高效、稳定的 SQL 迁移解决方案,满足用户多样化的业务需求。兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移。
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
|
1月前
|
Shell 开发工具 Android开发
ADB 下载、安装及使用教程:让你更好地管理 Android 设备
ADB 下载、安装及使用教程:让你更好地管理 Android 设备
458 2
|
1月前
|
SQL 分布式计算 NoSQL
使用Apache Hudi和Debezium构建健壮的CDC管道
使用Apache Hudi和Debezium构建健壮的CDC管道
16 0

热门文章

最新文章

推荐镜像

更多