数据仓库设计模型

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 数据仓库设计模型

数据仓库介绍


数据中台以其较大的价值带宽,可以快速精准的让数据直接赋能企业众多的业务,并为数据提供一个统一化的管理,打破数据孤岛,追溯数据血缘,实现自助化及数据高复用度的效果。数据仓库作为数据中台的重要组成,为了让其更好的服务于数据中台,高效的实现数据价值,特提出数据仓库结构设计模型及开发规范。


20210610091135438.png


数仓建设的核心思想:从设计、开发、部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联、提供标准数据输出以及建立统一的数据公共层。因此数仓建设应主要关注数仓结构模型的设计和开发过程的规范。

第2章 数仓结构设计模型


分层结构模型


20210610091201278.png


2.1.1 ODS(Operation Data Store)数据存储层

整体建设思路:

数据存储层主要是对接数据源,接入数据,做多数据源的整合,落地到hive表,保持数据原貌不做任何修改,起到备份数据和屏蔽底层影响的作用。其次在数据量大的情况下考虑采用压缩,减少磁盘存储空间;以及创建分区表,防止后续的全表扫描;将数据表映射到HBase中,提升查询效率等。

2.1.2 DWD(Data Warehouse Detail)数据明细层

整体建设思路:

数据明细层首先需要通过SQL进行数据清洗、敏感字段脱敏等,其次需根据业务构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。维度建模一般按照以下四个步骤:

(1) 不同项目根据需求选择择业务过程,通常一条业务对应一张事实表

(2) 确定粒度,尽可能采用最小粒度。

(3) 根据确立好的指标体系确定维度,维度表的设计可根据维度建模中的星型模型原则进行维度退化。

(4) 根据业务过程确定事实,事实表的设计可适当进行维度退化,进行宽表化处理。

2.1.3 DWS(Data Warehouse Service)数据服务层

整体建设思路:

数据服务层主要是建设多维明细的轻度汇总宽表,以业务需求为驱动,划分主题,以维度为基准关联事实表。轻度汇总宽表服务于日报类的需求指标及DWT层的分析。

2.1.4 DWT(Data Warehouse Topic)数据主题层

整体建设思路:

数据主题层和数据服务层类似,也是从维度出发,站在维度的角度对事实的度量进行聚合,形成的宽表可用于不同主题的周报,旬报,月报类需求指标。

2.1.5 ADS(Data Warehouse Store)数据结果层

整体建设思路:

数据应用层,用于存放数仓分析结果,对各应用场景进行需求分析、支撑多维分析应用。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
6月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
1067 0
|
存储 数据采集 分布式计算
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
|
6月前
|
数据挖掘 数据库
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
267 0
|
存储 数据采集 关系型数据库
数据仓库模型全景
数据仓库模型全景
|
大数据 数据管理 数据库
数据仓库(3)数仓建模之星型模型与维度建模
维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。
466 1
|
数据采集 监控 Android开发
网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)|学习笔记
快速学习网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)
409 0
网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)|学习笔记
|
新零售 分布式计算 大数据
MaxCompute大数据实践,电商数据仓库的星型模型和传统星型的区别
作者:王永伟 在Kimball所著的《数据仓库工具箱》一书中,对于维度模型设计采用的4步设计方法:1.选择业务过程 2.声明粒度 3.确定维度 4.确定事实。 在当前的互联网大数据环境下,面对复杂的业务场景,为了更有效准确地进行维度模型建设,基于Kimball的4步维度建模方法,我们进行了更进一步的改进。
5644 0

热门文章

最新文章