Data Vault的一点思考

简介:

之前参考过很多资料,其主要的核心理念是,DV(Data Vault)是结合ER和DM的一套建模理论。其实与其说是这样,还不如说是ER这一派,想找一个中间地带,两者都能兼顾。
最近看了在维基百科看到关于DV的解释,其中提到DM的一段:
For this purpose, the hubs and related satellites on those hubs can be considered as dimensions and the links and related satellites on those links can be viewed as fact tables in a dimensional model.
简言之,维表既是Hub及Hub的卫星表,事实表是关联表及相关的卫星表。始终感觉实在是有点凑合的意思,但是不能去否认DV这个模型理念。
从阿里出的大数据之路这本书,我们看到DM已经有了演化,维表已经作为一种辅助表,事实表中已经冗余了维表信息。
换句话说,在ER里面似乎也能看到相同的演化方式,主题会变少,各主题中不再是3NF类型的表数据,而是通过冗余,形成一些常用的表字段,一些原先需要通过关系历史拉链表关联才能得到数据的,现在因为有了冗余,也变成辅助表的形式,但这里面的辅助表只是针对的该主题,在别的主题下,有可能成为关联表。
也就是说现有的数据仓库的建模形式,对于DV而言,理念是有所冲突的,因为DV还是建立在ER和DM这两个基础模型上,对于ER和DM的演化模型,DV里面定义的Hub就完全相左,但也不能完全抛弃,只要我们改一改定义就好,原先DV的框架继续采用。
那Hub怎么去定义呢?个人认为就是冗余的这部分表数据,因为我们常这些用数据,我们才会去冗余,不管是DM冗余部分,还是ER冗余
部分。这边要特别强调一下,各自冗余的部分还是保留自己的特色的,也就是还是能够看出实体与关系、维度和事实表的。
那Satellite表呢,似乎就是我们上面所说的两个模型的辅助表。
再谈谈Link,个人认为起的作用仅仅是解耦的部分,也就是针对多对多的现象。
那似乎一个新型融合DM和ER的模型就有了一个框架。那么下一次我们专门讲这个模型,欢迎大家多提问题,一起讨论。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
阿里云实时数仓实战 - 项目介绍及架构设计
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
目录
相关文章
|
5月前
|
Android开发
|
10月前
System.ArgumentNullException:“值不能为 null。 Arg_ParamName_Name”
System.ArgumentNullException:“值不能为 null。 Arg_ParamName_Name”
|
6月前
|
编译器
error TS2322 Type ‘string null‘ is not assignable to type ‘string undefined‘.
error TS2322 Type ‘string null‘ is not assignable to type ‘string undefined‘.
93 1
|
Linux
编译OpenJDK8:error: control reaches end of non-void function [-Werror=return-type]
编译OpenJDK8:error: control reaches end of non-void function [-Werror=return-type]
153 0
Data Vault的一点思考(三)
前段时间和一家互联网创新企业的数据架构师聊天,说他们正准备开始用Data Vault的模型进行数据仓库的建设,他们有一套维度建模的集市,但是维度建模的特点是更贴业务,但是对于数据的存储不是很友好,对于数据友好,他们是想在维度集市之前,加一层Data Vault的数据层。
2473 0
Data Vault的一点思考(二)
现在的企业,只要是有点规模的,已经不仅仅是有ER这一套数据仓库模型来做数据,如现在很多企业从原有的线下转到线上,就不得不面临DM这一套数据模型,或者是线下和线上都有,而且是相互促进的(个人认为这是发展趋势的必然),但是貌似来说现阶段线上企业用DM这一套模型,现在更火,因为现在还是处在线下往线上发展的阶段,很多创业公司只要是线上的,数据的分析是必然,那怎么把数据组织好把数据给下游用,现在的主流是DM。
2847 0