数据仓库建模:定义事实表的粒度-阿里云开发者社区

开发者社区> @dailidong@> 正文

数据仓库建模:定义事实表的粒度

简介: 数据仓库建模:定义事实表的粒度Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏 维度建模中一个非常重要的步骤是定义事实表的粒度。
+关注继续查看

数据仓库建模:定义事实表的粒度

Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0编辑 收藏

维度建模中一个非常重要的步骤是定义事实表的粒度。定义了事实表的粒度,则事实表能表达数据的详细程度就确定了。定义粒度的例子如下:

1.客户的零售单据上的每个条目。

2.保险单上的每个交易。

定义好事实表的粒度有很大的用处。

第一个用处就是用来确定维度是否与该事实表相关。例如,对于粒度细到医疗单据上条目项的事实表来说,医疗结果是不会作为维度和它进行关联的,因为它们不在同一个粒度上。但是,对于一般的E/R数据模型来说,医疗单据是和医疗结果是进行关联的。通常的规范化建模里没有粒度的概念,它们表示的是实体之间的关系,这也是规范化建模和维度建模中一个较大的不同之处。

定义成原子的事实表粒度后,可以选择较多的维度来对该事实表进行描述。也就是说,事实表的粒度越细,能记载的信息就会越多。原子粒度的事实表对维度建模来说是至关重要的。

前面列举的几个例子中的粒度定义都是最低粒度的,这些事实表的数据是原子的,不能再进行细分了。但是我们可以在这个基础上定义高粒度的聚集事实表。举例如下:

1.一天一个仓库一个产品的销售总量。

2.每月的保险交易总数。

3.每月诊断治疗的交费金额。

这些高粒度的聚集事实表总是具有较少的维度。通常在建立这些聚集事实表的时候,我们会去掉一些维度或者缩减某些维度的范围。也正因为如此,聚集事实表应该和其对应的原子事实表一起使用。当需要更详细信息时,可以访问其对应的原子事实表。

第二个用处是定义好事实表的粒度后,能更清楚的确定哪个事实与该事实表相关。简单的说,事实必须对于该粒度是正确的,不同粒度的事实是不能定义在该事实表中的。

总结来说,我们定义事实表的粒度及维度建模时可以采用如下的步骤:

1.熟悉源数据的情况。

2.定义事实表的粒度,最好定义到原子粒度。

3.将与这个粒度的相关信息都添加为维度。

4.添加与该粒度相关的度量信息为事实。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
数据中台核心方法论--OneModel为何需要产品化支撑?
作者:渊洛 转自:阿里巴巴数据中台官网 https://dp.alibaba.com 什么是产品化大部分创业公司都是从一个伟大的想法创意开始的,并且需要有一堆技术专家来实现。我们清楚,伟大的技术并不等同于和伟大的产品,技术可以解决问题,但如果它没有办法法规模化,那这些技术或者能力对用户便没有直接价值,只有把它们拆解,打包,设计成产品,才能真正的解决用户问题,把某些技术或者能力变成产品的过程这个过程,就是产品化。
6531 0
MODIS数据的简介和下载(二)——MODIS数据下载方式(FTP)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/70171937 前一篇我们已经介绍了MODIS数据的简介、参数以及相关的典型应用。
1325 0
数据仓库建模:定义事实表的粒度
数据仓库建模:定义事实表的粒度Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏 维度建模中一个非常重要的步骤是定义事实表的粒度。
1408 0
分布式数据仓库设计
做大做强事实表,做小做弱维表; 分布式模式-维度建模新原则  (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值;      (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount Ind,Finance Ind等,用来扩展表的通用性,试图把所有的数据都存储到一张表 中。
790 0
mongodb每天上亿数据量定期清理
背景:mongodb(应用运营数据分析与自动自助化支持平台)每分钟有30w~40w的insert,20w~30w的update。数据保留一天,一天之前的数据可以清理。一天的数据量大概1亿左右。由于数据量较大,清理数据对系统造成了较大影响,入库会出现堵塞。
2906 0
Objective-C中通过下标的方式访问自定义数据模型中属性
Objective-C中通过下标的方式访问自定义数据模型中属性
19 0
云端数据仓库的模式选型与建设
数据仓库是否也需要上云?如果考虑上云,都需要注意哪些方面?目前主流云厂商产品又有何特点呢?本文将一一解答。
3016 0
+关注
@dailidong@
专注架构 外功修行,内功修神 CSDN博客:http://blog.csdn.net/odalidong
373
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载