基于Apache doris怎么构建数据中台(八)-数仓管理

简介: 数仓分层模型的好处是什么呢,以下内容回答你。

数仓分层模型



数仓分层模型的好处:


1、数据结构化更清晰:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。


2、数据血缘追踪:提供给外界使用的是一张业务表,但是这张业务表可能来源很多张表。如果有一张来源表出问题了,我们可以快速准确的定位到问题,并清楚每张表的作用范围。


3、增强数据复用能力:减少重复开发,通过数据分层规范化,开发一些通用的中间层数据,能够减少重复计算,提高单张业务表的使用率,提升系统的执行效率。


4、简化复杂的问题:把一个复杂的业务分成多个步骤实现,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。


5、减少业务的影响:业务可能会经常变化,这样做就不必改一次业务就需要重新接入数据。


6、统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径

image.pngimage.png

数仓主题域管理


数仓主题域管理实现数据业务线和数仓主题域管理,实现不同数据域的管理以及数据域下的数据主题管理。


数仓看板


主要是为了提供一个全面的数仓数据总览视图,从存储、数据库、数据表、业务域等角度全方位了解数仓数据情况,同时提供技术视角的数仓表健康总览视图


  1. 从存储角度:每个业务数据库所占存储空间、表数量


  1. 从技术角度全面了解数仓中的数据量,副本数,tablet数量等


对于数据仓库的成本,价值,质量,标准缺乏一套标准的评估体系,很难回答目前的成本分布,以及价值体现。资产360评估功能,对存储资源,计算资源,数据质量,数仓标准等进行定量的全方位评估。帮助管理者回答资产分布情况以及资产的价值体现


数仓任务管理及资源监控


  1. 管理和监控数据部分Routine load任务的,包括可视化创建routine load任务,启动,暂停,恢复、停止等操作


  1. 实现对doris数仓statistic资源的监控,包括数据库名称、数据库表数量,副本数量,分区数量,tablet数量,不健康tablet数量,克隆中的表数量,teblet不一致的数量


数仓用户及权限管理


主要是管理数仓用户,角色,权限


实现对数仓用户的添加、删除、修改密码,授权,撤销权限


对角色的添加、删除,修改,授权、撤销权限等


实现对数据用户,角色权限的精细化管理


数仓资源管理


  1. 管理Spark资源(主要是用于数据ETL,数据迁移)


  1. ODBC资源:查询和导入外部表的数据


数仓备份及恢复


改功能主要是提供集群数据的备份及恢复功能


  1. 数据备份是增量备份,定时执行


  1. 可以对选定表,或者选定表的指定分区数据进行备份到HDFS,


  1. 选定备份进行还原操作,


数仓表管理


  1. 表的分区管理


  1. 表配额管理


  1. 表副本管理


  1. 表数据量展示


  1. 表tablet管理


数仓数据库管理


  1. 数据库数据统计展示


  1. 数据库副本管理


  1. 数据库配额管理


运维监控


Doris集群监控


主要是监控Doris数仓组件运行状态


  1. 管理节点FE运行状态


  1. 数据节点BE运行状态


  1. Doris FE <Replayed journal id>状态一致性检查,出现不一致的情况及时预警


Kafka集群监控


监控内容:


  1. kafka集群监控:各节点运行状态,集群Topic、Broker等多维度历史与实时关键指标查看


  1. Kafka topic列表


  1. kafka topic数据查看


  1. Topic 运维:包括创建、查询、扩容、修改属性、下线等


  1. 指标监控:基于Topic生产消费各环节耗时统计,监控不同分位数性能指标


  1. 消费组运维:支持将消费偏移重置至指定时间或指定位置


Canal监控


  1. Canal集群管理


  1. Canal服务管理及状态监控


  1. Canal 示例管理及监控


DataX 监控


主要监控DataX任务调度执行情况,执行状态及查看任务执行日志信息。


Flink 作业监控


主要是监控所有Flink Job任务运行情况,提供一个统一监控管理入口




相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
7月前
|
人工智能 缓存 监控
使用LangChain4j构建Java AI智能体:让大模型学会使用工具
AI智能体是大模型技术的重要演进方向,它使模型能够主动使用工具、与环境交互,以完成复杂任务。本文详细介绍如何在Java应用中,借助LangChain4j框架构建一个具备工具使用能力的AI智能体。我们将创建一个能够进行数学计算和实时信息查询的智能体,涵盖工具定义、智能体组装、记忆管理以及Spring Boot集成等关键步骤,并展示如何通过简单的对话界面与智能体交互。
3008 1
|
7月前
|
人工智能 Java API
构建基于Java的AI智能体:使用LangChain4j与Spring AI实现RAG应用
当大模型需要处理私有、实时的数据时,检索增强生成(RAG)技术成为了核心解决方案。本文深入探讨如何在Java生态中构建具备RAG能力的AI智能体。我们将介绍新兴的Spring AI项目与成熟的LangChain4j框架,详细演示如何从零开始构建一个能够查询私有知识库的智能问答系统。内容涵盖文档加载与分块、向量数据库集成、语义检索以及与大模型的最终合成,并提供完整的代码实现,为Java开发者开启构建复杂AI智能体的大门。
4414 58
存储 人工智能 机器人
241 0
|
7月前
|
人工智能 安全 数据库
构建可扩展的 AI 应用:LangChain 与 MCP 服务的集成模式
本文以LangChain和文件系统服务器为例,详细介绍了MCP的配置、工具创建及调用流程,展现了其“即插即用”的模块化优势,为构建复杂AI应用提供了强大支持。
|
8月前
|
机器学习/深度学习 算法 大数据
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
|
9月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
417 0
|
9月前
|
分布式计算 Serverless OLAP
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
|
6月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
1163 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
7月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
2638 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架

推荐镜像

更多
下一篇
开通oss服务