Data Vault的一点思考

简介:

之前参考过很多资料,其主要的核心理念是,DV(Data Vault)是结合ER和DM的一套建模理论。其实与其说是这样,还不如说是ER这一派,想找一个中间地带,两者都能兼顾。
最近看了在维基百科看到关于DV的解释,其中提到DM的一段:
For this purpose, the hubs and related satellites on those hubs can be considered as dimensions and the links and related satellites on those links can be viewed as fact tables in a dimensional model.
简言之,维表既是Hub及Hub的卫星表,事实表是关联表及相关的卫星表。始终感觉实在是有点凑合的意思,但是不能去否认DV这个模型理念。
从阿里出的大数据之路这本书,我们看到DM已经有了演化,维表已经作为一种辅助表,事实表中已经冗余了维表信息。
换句话说,在ER里面似乎也能看到相同的演化方式,主题会变少,各主题中不再是3NF类型的表数据,而是通过冗余,形成一些常用的表字段,一些原先需要通过关系历史拉链表关联才能得到数据的,现在因为有了冗余,也变成辅助表的形式,但这里面的辅助表只是针对的该主题,在别的主题下,有可能成为关联表。
也就是说现有的数据仓库的建模形式,对于DV而言,理念是有所冲突的,因为DV还是建立在ER和DM这两个基础模型上,对于ER和DM的演化模型,DV里面定义的Hub就完全相左,但也不能完全抛弃,只要我们改一改定义就好,原先DV的框架继续采用。
那Hub怎么去定义呢?个人认为就是冗余的这部分表数据,因为我们常这些用数据,我们才会去冗余,不管是DM冗余部分,还是ER冗余
部分。这边要特别强调一下,各自冗余的部分还是保留自己的特色的,也就是还是能够看出实体与关系、维度和事实表的。
那Satellite表呢,似乎就是我们上面所说的两个模型的辅助表。
再谈谈Link,个人认为起的作用仅仅是解耦的部分,也就是针对多对多的现象。
那似乎一个新型融合DM和ER的模型就有了一个框架。那么下一次我们专门讲这个模型,欢迎大家多提问题,一起讨论。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
阿里云实时数仓实战 - 用户行为数仓搭建
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求:熟练掌握 SQL 语法熟悉 Linux 命令,对 Hadoop 大数据体系有一定的了解   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
目录
相关文章
|
算法 数据处理 计算机视觉
【MATLAB 】 MODWT 信号分解+希尔伯特黄变换+边际谱算法
【MATLAB 】 MODWT 信号分解+希尔伯特黄变换+边际谱算法
600 0
|
大数据
《大数据之路:阿里巴巴大数据实践》| 每天读本书
本书是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。
4317 0
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
454 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
6月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
649 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
|
9月前
|
搜索推荐 小程序 开发工具
Gitee推荐项目!埋点+用户分析系统,适合中小团队的开源方案
一款好用的用户行为分析工具,对产品经理、运营人员和开发者来说,都越来越重要。 目前市面上主流的工具,不是价格高昂、数据不透明,就是部署复杂,很难维护。 ClkLog,适合中小团队的开源方案,已经在Gitee上开源,社区也在持续更新中。
|
安全 Linux 网络安全
在Linux中,如何配置SSH以确保远程连接的安全?
在Linux中,如何配置SSH以确保远程连接的安全?
|
消息中间件 Java RocketMQ
【Spring常见错误】Rocketmq 闪退
 意思是JAVA_HOME环境变量未找到,可能是环境变量配置问题,有时候配置多个java版本可能会在JAVA_HOME后面加上后缀例如: JAVA_HOME8、JAVA_HOME15  而 JAVA_HOME为配置,从而导致找不到JAVA_HOME环境变量。
1370 0
【Spring常见错误】Rocketmq 闪退
|
Linux C++
在Linux上安装CLion
在Linux上安装CLion
1239 0
|
机器学习/深度学习 算法 数据挖掘
【机器学习】小波变换在特征提取中的实践与应用
【机器学习】小波变换在特征提取中的实践与应用
1886 0
|
分布式计算 API Spark
Spline部署&测试
Spline是Spark的元数据管理和血缘追踪工具,通过Docke部署。安装涉及下载docker-compose.yml和.env文件,使用`docker compose up -d`命令启动,包括rest-server(核心,处理血缘数据并存储在ArangoDB)、arangodb(多模型数据库)、ui(Web服务)等组件。测试中使用pyspark进行血缘捕获,通过spark-submit命令指定Spline相关依赖并连接到Spline服务器。成功后,血缘数据可在Spline UI中查看。未来计划在DolphinScheduler上测试Spark SQL任务并启用血缘追踪。
778 0

热门文章

最新文章