【读书笔记】《大数据之路》——维度设计总结(1)

简介: 【读书笔记】《大数据之路》——维度设计总结(1)

一、维度概念

       在维度建模中,将度量称为“事实”,将环境描述为“维度”,维度是用于分析事实所需要的多样环境。维度所包含的表示维度的列,称为维度属性。


       维度使用主键标识其唯一性。


代理键:不具有业务含义(一般用于处理缓慢变化维)

自然键:有业务含义(如商品ID)

二、维度设计方法

选择维度和新建维度(保证维度唯一性)

确定主维表(ods表)

确定相关维表(确定和主维表有联系的表生成维度属性)

确定维度属性

阶段一:从主维表中选择维度属性或生成新的维度属性

阶段二:从相关维表中选择维度属性或生成新的维度属性

确定属性维度的关键:


生成丰富的维度属性

属性应当是有意义的文字性描述(编码用于关联,名称是报表标签)

区分数值性属性和事实(用于约束和分组的字段是维度属性,参与度量计算的是事实)

沉淀出通用的维度属性(表关联/字段解析/字段加工【拼接/判断】)

三、维度的层次结构

       维度中的描述属性以层次方式或一对多的方式相互关联。在创建事实表时,可以按照属性的层次结构向下钻取数据。

1ecd1b2606ed46e9956a89f231c9802c.png

2020062310470442.png

20200623104134875.png

四、规范化和反规范化

雪花模型:属性层次被实例化成一系列的维度,而不是单一的维度


规范化技术(雪花模型):一个属性只存在于一张表, 删除冗余数据,可以避免数据的不一致性。(对OLTP友好,对OLAP能节约存储,但需要大量关联操作,查询性能差)


反规范化技术:将维度属性层次合并到单个维度中,更适用于统计分析,降低了分析复杂度。(用维表空间换取简明性和查询性能)。

五、一致性维度和交叉探查

交叉探查:将不同数据域某个维度的事实合并在一起进行数据探查(日志域的商品pv和交易域的商品GMV,计算转化率)。


维度一致性的表现形式:


共享维表

一致性上卷,一个维度的维度属性是另一个维度的维度属性的子集,两个维度的公共维度属性结构和内容相同。

交叉属性,两个维度具有部分相同的维度属性。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
监控 数据可视化 安全
Spring Cloud可视化智慧工地大数据云平台源码(人、机、料、法、环五大维度)
智慧工地平台是依托物联网、互联网、AI、可视化建立的大数据管理平台,是一种全新的管理模式,能够实现劳务管理、安全施工、绿色施工的智能化和互联网化。围绕施工现场管理的人、机、料、法、环五大维度,以及施工过程管理的进度、质量、安全三大体系为基础应用,实现全面高效的工程管理需求,满足工地多角色、多视角的有效监管,实现工程建设管理的降本增效,为监管平台提供数据支撑。
58 2
|
4月前
|
物联网 大数据
助力工业物联网,工业大数据之其他维度:组织机构【十五】
助力工业物联网,工业大数据之其他维度:组织机构【十五】
31 0
|
4月前
|
SQL Oracle 物联网
助力工业物联网,工业大数据之数仓维度层DWS层构建【十二】
助力工业物联网,工业大数据之数仓维度层DWS层构建【十二】
45 0
|
4月前
|
物联网 大数据
助力工业物联网,工业大数据之其他维度:组织机构【十六】
助力工业物联网,工业大数据之其他维度:组织机构【十六】
111 0
|
4月前
|
大数据 物联网
助力工业物联网,工业大数据之工业大数据之油站维度设计【十四】
助力工业物联网,工业大数据之工业大数据之油站维度设计【十四】
22 0
|
9月前
|
存储 移动开发 算法
《阿里大数据之路》读书笔记:第二章 日志采集
《阿里大数据之路》读书笔记:第二章 日志采集
|
9月前
|
数据采集 存储 消息中间件
《阿里大数据之路》读书笔记:总述
阿里数据体系主要分为数据采集、数据计算、数据服务和数据应用四大层次。
|
存储 分布式计算 安全
【读书笔记】大数据原理与应用:分布式文件系统HDFS
【读书笔记】大数据原理与应用:分布式文件系统HDFS
124 0
【读书笔记】大数据原理与应用:分布式文件系统HDFS
|
存储 SQL 分布式计算
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
158 0
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
|
存储 大数据
【读书笔记】《大数据之路》——维度设计总结(3)
【读书笔记】《大数据之路》——维度设计总结(3)