数仓实践:浅谈 Kimball 维度建模1

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,8核32GB 100GB 1个月
简介: 数仓实践:浅谈 Kimball 维度建模1

我们不管是基于 Hadoop 的数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如 Teradata ),抑或是基于传统 Oracle 、MySQL 、SQL Server 关系型数据库的数据仓库,其实都面临如下问题:


怎么组织数据仓库中的数据?


怎么组织才能使得数据的使用最为方便和便捷?


怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?


Kimball 维度建模理论很好地回答和解决了上述问题。


维度建模理论和技术也是目前在数据仓库领域中使用最为广泛的、也最得到认可和接纳的一项技术。今天我们就来深入探讨 Ralph Kimball 维度建模的各项技术,涵盖其基本理论、一般过程、维度表设计和事实表设计等各个方面,也为我们后面讲Hadoop 数据仓库实战打下基础。



度量和环境


维度建模是支持对业务过程的分析,所以它是通过对业务过程度量进行建模来实现的。


那么,什么是度量呢?


实际上,我们通过和业务方、需求方交谈,或者阅读报表、图表等,可以很容易地识别度量。


考虑如下业务需求:


  • 店铺上个月的销售额如何?


  • 店铺库存趋势如何?


  • 店铺的访问情况如何( pv,uv) ?


  • 店铺访问的熟客占比多少?


“ 这里的销售额、库存、访问量、熟客量就是度量。”


“ 但是,单单谈论度量,是没有意义的。”


度量和环境这两个概念构成了维度建模的基础。而所有维度建模也正是通过对度量和及其上下文和环境的详细设计来实现的。


事实和维度


在 Kimball 的维度建模理论中,“ 度量称为事实,上下文和环境则称为维度。”


通常来说,事实常以数值形式出现,而且一般都被大量文本形式的上下文包围着。


这些文本形式的上下文描述了事实的“ 5个W ”( When 、 Where 、 What 、 Who 、 Why )信息,通常可被直观地分割为独立的逻辑块,每一个独立的逻辑块即为一个维度,比如一个订单可以非常直观地分为商品 、买家、卖家等多个维度。


在维度建模和设计过程中,可以根据需求描述或者基于现有报表,很容易地将信息和分析需求分类到事实和度量中。


比如业务人员需求为“按照一级类目,统计本店铺上月的销售额情况”,“按照一级类自”这个描述,很清楚地说明需求方希望对一级类目的销售额进行统计分析,这里的一级类目即为一个维度 。类似的是,“上月”为另一个维度,而销售额明显是事实。


事实表


事实表是维度模型中的基本表,或者说核心表。


事实上,业务过程的所有度量在维度建模中都是存储在事实表中的,除此之外,事实表还存储了引用的维度。


事实表通常和一个 企业的业务过程 紧密相关,由于一个企业的业务过程数据构成了其所有数据的绝大部分,因此事实表也通常占用了数据仓库存储的绝大部分。


比如对于某个超市来说,其 销售的明细数据 通常占其拥有数据的绝大部分且每天还在不断地累计和增长,而商品、门店、员工、设备等其他数据相对来说固定且变化不大。


事实表的一行对应一个度量事件


事实上,每行对应的度量事件可粗可细,比如对某个超市来说,在设计其维度模型时,表示顾客购买事件的事实表的一行即可以记录一张顾客的小票,也可以记录顾客小票的一个子项。


那么我们究竟应该到何种级别呢?


维度建模认为事实表应该包含 最底层的、最原子性 的细节,因为这样会带来最大的灵活性。维度建模中,细节的级别称为事实表的粒度,比如上文顾客购买行为事实表的粒度就应该是小票子项,而非小票。


事实表中最常用的度量一般是数值型和可加类型的


比如小票子项的销售数量、销售金额等,可加性对于数据分析来说至关重要,因为数据应用一般不仅检索事实表的单行数据,而往往一次性检索数百、数千乃至百万行的事实,并且处理这么多行的最有用的和最常见的事就是将它们加起来,而且是从各个角度和维度加起来。


但事实表中的度量并不都是可加的,有些是半可加性质的,另一些则是非可加性质的


半加性事实是指仅仅某些维度可加,例如库存,可以把各个地方仓库的库存加起来,或者把一个仓库不同的商品加起来,但是很明显不能把一个仓库同一商品在不同时期的库存加起来。


银行的账户余额也是半可加事实的例子,可以把不同分行的账户余额加起来或者不同账户人的账户余额加起来,但是不能把不同月份的账户余额加起来。


非可加性事实则根本就不能相加的事实,比如商品的价格以及订单的状态等。


除了存储的事实外,事实表都会包含多个相关的外键。



用于关联和连接相应的维度表。


例如,订单事实表会包含连接到商品表的商品外键、连接到会员表的买家外键、或者连接到门店表的门店外键等。


正是通过这些外键,才能进行各个角度的、各个维度的分析。


事实表根据粒度的角色划分不同,可分为事务事实表、周期快照事实表和累积快照事实表。


  • 事务事实表用于承载事务数据,通常粒度比较低,例如产品交易事务事实、 ATM交易事务事实。


  • 周期快照事实表用于记录有规律的、固定时间间隔的业务累计数据,通常粒度比较大,例如账户月平均余额事实表。


  • 累积快照事实表用于记录具有时间跨度的业务处理过程的整个信息,通常这类事实表相对比较少见。


这里需要值得注意的是,在进行事实表的设计时,一定要注意 一个事实表只能有一个粒度,不能将不同粒度的事实建立在同一张事实表中。


维度表


维度表是维度建模的灵魂,通常来说,维度表设计得好坏直接决定了维度建模的好坏。


维度表包含了 实表所记录的业务过程度量的上下文和环境,它们除了记录“5 个 W”等信息外,通常还包含了很多的描述字段和标签字段等。



维度表通常有多列或者说多个属性。


实际应用中,包含几十甚至上百属性的维度表并不少见。维度表应该尽可能多地包括 些有意义的文字性描述,以方便下游用户使用。


维度属性是查询约柬条件( SQL where 条件)、分组( SQL  group 语句)与报表标签生成的基本来源在查询与报表需求中, 属性用 by (按)这个单词进行标识。


维度属性在数据仓库中承担着一个重要的角色。


由于它们实际上是所有令人感兴趣的约束条件与报表标签的来源,因此是数据仓库易学易用的关键。在许多方面,数据仓库不过是维度属性的体现而已。


数据仓库的能力直接与维度属性的质量和深度成正比 。


  • 在提供详细的业务用语属性方面所花的时间越多,数据仓库就越好;


  • 在属性列值的给定方面所花的时间越多,数据仓库就越好;


  • 在保证属性列值的质量方面所花的时间越多,数据仓库就越好。


维度表是进入事实表的入口。


丰富的维度属性给出了丰富的分析切割能力。维度给用户提供了使用数据仓库的接口, 最好的属性是文本的和离散的, 属性应该是真正的文字而不应是一些编码简写符号。


我们应该通过更详细的文本属性取代编码,力求最大限度地减少编码在维度表中的使用。


有时候在设计数据库时,并不能很确定从数据源析取出的一个数字型数据字段到底应该作为事实还是维度属性看待 ,通常可以这样来做出决定,即看字段是一个含有许多取值并参与运算的度量值(当事实看待),还是一个变化不多并作为约束条件的离散取值的描述(当维度属性看待)。


相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
19天前
|
存储 SQL 分布式计算
离线数仓(五)【数据仓库建模】(4)
离线数仓(五)【数据仓库建模】
|
19天前
|
SQL 存储 关系型数据库
离线数仓(五)【数据仓库建模】(1)
离线数仓(五)【数据仓库建模】
离线数仓(五)【数据仓库建模】(1)
|
1月前
|
存储 数据挖掘 大数据
大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】
数据仓库建模是组织和设计数据以支持数据分析的过程,包括ER模型和维度建模。ER模型通过实体和关系描述数据结构,遵循三范式减少冗余。维度建模,特别是Kimball方法,用于数据仓库设计,便于分析和报告。事实表存储业务度量,如销售数据,分为累积、快照、事务和周期性快照类型。维度表提供描述性信息,如时间、产品、地点和客户详情。数仓通常分层为ODS(源数据)、DWD(明细数据)、DIM(公共维度)、DWS(数据汇总)和ADS(应用数据),以优化数据管理、质量、查询性能和适应性。
|
1月前
|
存储 SQL 分布式计算
企业数仓架构设计实践
本文是一位数据架构师在设计企业级数据仓库架构时的思考与实践经验分享。从理论基础(数据仓库概念、Lambda架构、Kimball与Inmon方法)到工具选型(如Hadoop、Hive、Spark、Airflow、Tableau等),再到实践过程(需求调研、架构设计、技术选型落地、数据模型设计、测试迭代及用户培训),全面阐述了数仓建设的各个环节。强调了业务理解与技术结合的重要性,并指出数仓建设是一个持续优化、适应业务发展变化的过程。
离线数仓(五)【数据仓库建模】(3)
离线数仓(五)【数据仓库建模】
|
19天前
|
存储 SQL JSON
离线数仓(五)【数据仓库建模】(2)
离线数仓(五)【数据仓库建模】
|
1月前
|
存储 数据可视化 前端开发
数仓常用分层与维度建模
本文介绍了数据仓库的分层结构和维度建模。数仓通常分为ODS、DIM、DWD、DWS和ADS五层,各层负责不同的数据处理阶段。维度建模是数据组织方法,包括星型和雪花模型。星型模型简单直观,查询性能高,适合简单查询;雪花模型则通过规范化减少冗余,提高数据一致性和结构复杂性,但可能影响查询效率。选择模型需根据业务需求和数据复杂性来定。
|
1月前
|
存储 大数据 数据管理
数据仓库(09)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
267 2
数据仓库(09)数仓缓慢变化维度数据的处理
|
1月前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
337 0
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
162 0