【读书笔记】《大数据之路》——维度设计总结(3)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【读书笔记】《大数据之路》——维度设计总结(3)

一、缓慢维变化

三种处理缓慢变化维的方式:

重写维度值。不保留历史数据,始终取最新数据。

插入新的维度行。保留历史数据,维度变化前的事实和过去的维度值关联,维度值变化后的事实和当前维度值关联。

添加维度列。保留历史数据,可以将变化前后的维度列事实归在一起。

二、快照维表

Kimball维度建模理论中,必须使用代理键作为每个维表的主键。


一般不直接使用代理键的两个原因:

对于分布式的计算系统,没有事物的概念,很难确保每个表记录生成的主键全局唯一(不稳定)。

使用代理键会增加ETL的复杂性,开发维护成本高。

不使用代理键处理缓慢变化维的方式:快照维表——每天保留一份全量快照数据


优点:


简单有效、开发成本低

使用方便,理解性好,限定日期即可获得快照数据

弊端:存储浪费,比如某个维度每天的变化量占总体数据量很小比重,但每天仍要存一份这个维度的数据(可以设置好生命周期,清理历史数据)

三、极限存储

历史拉链存储:利用维度模型中缓慢变化维的第二种处理方式,通过新增两个时间戳字段,将所有以天为粒度的变更数据记录下来(分区字段也算)。对于不变的记录不重复存储

极限存储方式:


透明化:底层数据存成拉链式的,上层创建视图,(比如底层需要限制时间戳字段查询一些记录,封装起来,上层也就是下游用户查这些记录的时候只用限制全量数据表的分区即可)

分月做历史拉链表:每个月月初重新做历史拉链表。

极限存储的优势:


压缩全量存储成本

下游使用透明

劣势:


产出效率低

数据变化频率高的不能节约成本

极限存储的额外处理

做极限存储前的全量表仅需保留最近一段时间的分区数据,历史数据通过映射关联到极限存储表。(用户访问的就是全量存储)

过滤变化频率频繁的字段。

微型维度

通过将一部分不稳定的属性从主维度中移出,并将它们放置到拥有自己代理键的新表中。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
监控 数据可视化 安全
Spring Cloud可视化智慧工地大数据云平台源码(人、机、料、法、环五大维度)
智慧工地平台是依托物联网、互联网、AI、可视化建立的大数据管理平台,是一种全新的管理模式,能够实现劳务管理、安全施工、绿色施工的智能化和互联网化。围绕施工现场管理的人、机、料、法、环五大维度,以及施工过程管理的进度、质量、安全三大体系为基础应用,实现全面高效的工程管理需求,满足工地多角色、多视角的有效监管,实现工程建设管理的降本增效,为监管平台提供数据支撑。
134 2
|
8月前
|
物联网 大数据
助力工业物联网,工业大数据之其他维度:组织机构【十五】
助力工业物联网,工业大数据之其他维度:组织机构【十五】
68 0
|
8月前
|
SQL Oracle 物联网
助力工业物联网,工业大数据之数仓维度层DWS层构建【十二】
助力工业物联网,工业大数据之数仓维度层DWS层构建【十二】
97 0
|
3月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
41 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
3月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
50 1
|
6月前
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之如何实现根据商品维度统计每件商品的断货时长的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
存储 数据挖掘 大数据
大数据数仓建模基础理论【维度表、事实表、数仓分层及示例】
数据仓库建模是组织和设计数据以支持数据分析的过程,包括ER模型和维度建模。ER模型通过实体和关系描述数据结构,遵循三范式减少冗余。维度建模,特别是Kimball方法,用于数据仓库设计,便于分析和报告。事实表存储业务度量,如销售数据,分为累积、快照、事务和周期性快照类型。维度表提供描述性信息,如时间、产品、地点和客户详情。数仓通常分层为ODS(源数据)、DWD(明细数据)、DIM(公共维度)、DWS(数据汇总)和ADS(应用数据),以优化数据管理、质量、查询性能和适应性。
2020 3
|
数据可视化 大数据
2022-11-28-大数据可视化“可视化国产/进口电影票房榜单”分析,特征维度大于50(二)
2022-11-28-大数据可视化“可视化国产/进口电影票房榜单”分析,特征维度大于50
104 0
|
8月前
|
物联网 大数据
助力工业物联网,工业大数据之其他维度:组织机构【十六】
助力工业物联网,工业大数据之其他维度:组织机构【十六】
163 0
|
8月前
|
大数据 物联网
助力工业物联网,工业大数据之工业大数据之油站维度设计【十四】
助力工业物联网,工业大数据之工业大数据之油站维度设计【十四】
47 0