【读书笔记】《大数据之路》——维度设计总结(2)

简介: 【读书笔记】《大数据之路》——维度设计总结(2)

一、维度整合

数据集成体现:

命名规范统一

字段类型统一

公共代码及代码值的统一

业务含义相同的表的统一

来自不同系统的应用数据集成方式:

主从表——两个表或多个表都有的字段放在主表中,从属信息放在各自的从表中,主表主键用复合主键。

直接合并——共有信息和各有信息都放在一个表中。

不合并——使用数仓的表各自存放数据。

表级别整合的两种表现形式:

垂直整合:不同来源表包含相同数据集,存储信息不同。

水平整合:不同的来源表包含不同的数据集,不同的子集之间无交叉,也可以存在部分交叉。

二、水平拆分

如何设计维度?


方案一:将维度的不同分类实例化为不同的维度,并在主维度中保存公共属性

方案二:维护单一维度,包含所有可能的属性

三个原则:

扩展性:当源系统、业务逻辑发生变化时,能通过较少的成本快速扩展模型,保持核心模型的相对稳定性(高内聚低耦合)。

效能:在性能和成本方面取得平衡,可以牺牲一定的存储成本达到性能和逻辑的优化。

易用性:模型可理解性高,访问复杂度低。

维度水平拆分的两个依据:

维度的不同分类的属性差异情况。

业务的关联程度。

三、垂直拆分

       出于扩展性、产出时间、易用性等方面考虑,设计主从维度。主维表存放稳定、产出时间早、热度高(使用频繁)的属性,从维表存放变化较快、产出时间晚、热度低的属性。

四、历史归档

归档策略1:和前台历史数据归档保持一致(适用于前台归档策略逻辑简单,且变更不频繁)

归档策略2:采用数据库日志变更方式

归档策略3:数据仓库自定义归档策略


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
监控 数据可视化 安全
Spring Cloud可视化智慧工地大数据云平台源码(人、机、料、法、环五大维度)
智慧工地平台是依托物联网、互联网、AI、可视化建立的大数据管理平台,是一种全新的管理模式,能够实现劳务管理、安全施工、绿色施工的智能化和互联网化。围绕施工现场管理的人、机、料、法、环五大维度,以及施工过程管理的进度、质量、安全三大体系为基础应用,实现全面高效的工程管理需求,满足工地多角色、多视角的有效监管,实现工程建设管理的降本增效,为监管平台提供数据支撑。
319 2
|
物联网 大数据
助力工业物联网,工业大数据之其他维度:组织机构【十五】
助力工业物联网,工业大数据之其他维度:组织机构【十五】
169 0
|
SQL Oracle 物联网
助力工业物联网,工业大数据之数仓维度层DWS层构建【十二】
助力工业物联网,工业大数据之数仓维度层DWS层构建【十二】
220 0
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
194 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
235 1
|
数据可视化 大数据
2022-11-28-大数据可视化“可视化国产/进口电影票房榜单”分析,特征维度大于50(二)
2022-11-28-大数据可视化“可视化国产/进口电影票房榜单”分析,特征维度大于50
303 0
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之如何实现根据商品维度统计每件商品的断货时长的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
145 5
|
存储 数据挖掘 大数据
大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】
数据仓库建模是组织和设计数据以支持数据分析的过程,包括ER模型和维度建模。ER模型通过实体和关系描述数据结构,遵循三范式减少冗余。维度建模,特别是Kimball方法,用于数据仓库设计,便于分析和报告。事实表存储业务度量,如销售数据,分为累积、快照、事务和周期性快照类型。维度表提供描述性信息,如时间、产品、地点和客户详情。数仓通常分层为ODS(源数据)、DWD(明细数据)、DIM(公共维度)、DWS(数据汇总)和ADS(应用数据),以优化数据管理、质量、查询性能和适应性。
5598 4
|
物联网 大数据
助力工业物联网,工业大数据之其他维度:组织机构【十六】
助力工业物联网,工业大数据之其他维度:组织机构【十六】
266 0
|
大数据 物联网
助力工业物联网,工业大数据之工业大数据之油站维度设计【十四】
助力工业物联网,工业大数据之工业大数据之油站维度设计【十四】
161 0