基于Apache doris怎么构建数据中台(八)-数仓管理

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 数仓分层模型的好处是什么呢,以下内容回答你。

数仓分层模型



数仓分层模型的好处:


1、数据结构化更清晰:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。


2、数据血缘追踪:提供给外界使用的是一张业务表,但是这张业务表可能来源很多张表。如果有一张来源表出问题了,我们可以快速准确的定位到问题,并清楚每张表的作用范围。


3、增强数据复用能力:减少重复开发,通过数据分层规范化,开发一些通用的中间层数据,能够减少重复计算,提高单张业务表的使用率,提升系统的执行效率。


4、简化复杂的问题:把一个复杂的业务分成多个步骤实现,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。


5、减少业务的影响:业务可能会经常变化,这样做就不必改一次业务就需要重新接入数据。


6、统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径

image.pngimage.png

数仓主题域管理


数仓主题域管理实现数据业务线和数仓主题域管理,实现不同数据域的管理以及数据域下的数据主题管理。


数仓看板


主要是为了提供一个全面的数仓数据总览视图,从存储、数据库、数据表、业务域等角度全方位了解数仓数据情况,同时提供技术视角的数仓表健康总览视图


  1. 从存储角度:每个业务数据库所占存储空间、表数量


  1. 从技术角度全面了解数仓中的数据量,副本数,tablet数量等


对于数据仓库的成本,价值,质量,标准缺乏一套标准的评估体系,很难回答目前的成本分布,以及价值体现。资产360评估功能,对存储资源,计算资源,数据质量,数仓标准等进行定量的全方位评估。帮助管理者回答资产分布情况以及资产的价值体现


数仓任务管理及资源监控


  1. 管理和监控数据部分Routine load任务的,包括可视化创建routine load任务,启动,暂停,恢复、停止等操作


  1. 实现对doris数仓statistic资源的监控,包括数据库名称、数据库表数量,副本数量,分区数量,tablet数量,不健康tablet数量,克隆中的表数量,teblet不一致的数量


数仓用户及权限管理


主要是管理数仓用户,角色,权限


实现对数仓用户的添加、删除、修改密码,授权,撤销权限


对角色的添加、删除,修改,授权、撤销权限等


实现对数据用户,角色权限的精细化管理


数仓资源管理


  1. 管理Spark资源(主要是用于数据ETL,数据迁移)


  1. ODBC资源:查询和导入外部表的数据


数仓备份及恢复


改功能主要是提供集群数据的备份及恢复功能


  1. 数据备份是增量备份,定时执行


  1. 可以对选定表,或者选定表的指定分区数据进行备份到HDFS,


  1. 选定备份进行还原操作,


数仓表管理


  1. 表的分区管理


  1. 表配额管理


  1. 表副本管理


  1. 表数据量展示


  1. 表tablet管理


数仓数据库管理


  1. 数据库数据统计展示


  1. 数据库副本管理


  1. 数据库配额管理


运维监控


Doris集群监控


主要是监控Doris数仓组件运行状态


  1. 管理节点FE运行状态


  1. 数据节点BE运行状态


  1. Doris FE <Replayed journal id>状态一致性检查,出现不一致的情况及时预警


Kafka集群监控


监控内容:


  1. kafka集群监控:各节点运行状态,集群Topic、Broker等多维度历史与实时关键指标查看


  1. Kafka topic列表


  1. kafka topic数据查看


  1. Topic 运维:包括创建、查询、扩容、修改属性、下线等


  1. 指标监控:基于Topic生产消费各环节耗时统计,监控不同分位数性能指标


  1. 消费组运维:支持将消费偏移重置至指定时间或指定位置


Canal监控


  1. Canal集群管理


  1. Canal服务管理及状态监控


  1. Canal 示例管理及监控


DataX 监控


主要监控DataX任务调度执行情况,执行状态及查看任务执行日志信息。


Flink 作业监控


主要是监控所有Flink Job任务运行情况,提供一个统一监控管理入口




相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
5天前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
|
12天前
|
消息中间件 分布式计算 大数据
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
36 5
|
12天前
|
存储 SQL 分布式计算
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
30 3
|
12天前
|
Java 大数据 数据库连接
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
21 2
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
|
4天前
|
存储 JSON Apache
科大讯飞:成本降低 60%,性能提升 10 倍,从 ES Loki 到 Apache Doris 可观测性存储底座升级
科大讯飞星际日志中心经历了从 Elasticsearch 到 Loki,再到 Apache Doris 的可观测性存储分析底座升级,支持可观测三大支柱 Log Trace Metrics 的存储与分析,有效解决 Elasticsearch 成本高、Loki 查询慢的问题。Doris 能够在降低成本的同时提高查询效率,实现了查询性能提升 10 倍、存储空间缩减至 Elasticsearch 1/6。此外,Doris 提供的半结构化数据类型 VARIANT 能高效存储可扩展的 JSON 数据,具备很高的灵活性,且其性能媲美普通宽表。
科大讯飞:成本降低 60%,性能提升 10 倍,从 ES Loki 到 Apache Doris 可观测性存储底座升级
|
11天前
|
存储 SQL 缓存
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
|
6天前
|
存储 小程序 Apache
10月26日@杭州,飞轮科技 x 阿里云举办 Apache Doris Meetup,探索保险、游戏、制造及电信领域数据仓库建设实践
10月26日,由飞轮科技与阿里云联手发起的 Apache Doris 杭州站 Meetup 即将开启!
24 0
|
12天前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
24 0
|
16天前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
6天前
|
人工智能 分布式计算 数据管理
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首次发布了《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云在首次报告发布即位居领导者类别。

推荐镜像

更多