开发者学堂课程【新电商大数据平台2020最新课程:电商项目之数仓概念分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10490
电商项目之数仓概念分析
数仓分层概述
根据实际生产情况,建议将数据仓库分为三层,自下而上为:
数据引入层(ODS, Operation Data Store)这一层里面主要是原始层原始数据。
数据公共层(CDM,Common Data Model)比较杂些dws、临时表等
数据应用层(ADS,Application Data Service)也叫数据集市生成报表形成报表。
1、数据引入层(ODS, Operation Data Store) :
将原始数据几乎无处理的存放在数据仓库系统,结构上与源系统基本保持一致,是数据仓库的数据准备区。
就是它会将原始的数这个原始数据,就比如说你刚采集过来的数据,没有经过任何的处理。
还有我们的业务数据也没有经过任何的数据,比如过滤、清除、空字段等等,什么都没有处理,直接将他怎么样刷入下载到我们的数据仓库系统当中,然后他的结构和语言数据不变,原封不动的刷入到 ODS 中,这里面的数据叫天原词数据引入参数据。那这里的数据一般会和原始数据一致。
2、数据公共层(CDM, Common Data Model,又称通用数据模型层),包含 DIM 维度表、DWD 和 DWS, 由 ODS 层数据加工而成。主要完成数据加工与整合,建立-致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。对上一层进行降维同一纬度。
(1)公共维度层(DIM) :基于维度建模理念思想,建立整个企业的一致性维度。降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表,维度和维度逻辑表通常一-对应。
(2)公共汇总粒度事实层(DWS) :以分析的主题对象作为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段物理化模型。
构建命名规范、口径一致的统计指标, 为上层提供公共指标,建立汇总宽表、明细事实表。公共汇总粒度事实层的表通常也被称为汇总逻辑表,用于存放派生指标数据。
(3)明细粒度事实层(DWD) :以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。可以结合企业的数据使用特点,将明事实表的某些重要维度属性字段做适当冗余,也即宽表化处理。明细粒度事实层的表通常也被称为逻辑事实表。
公共汇总粒度事实层的表通常也被称为汇总逻辑表,用于存放派生指标数据。
(3)明细粒度事实层(DWD) :以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,也即宽表化处理。明细粒度事实层的表通常也被称为逻辑事实表。
3、数据应用层(ADS, Application Data Service) :存放数据产品个性化的统计指标数据。根据 CDM 与 ODS 层加工生成。
从数据引入层到数据公共层再到数据应用层整个过程叫做数据仓库。这只是一个理论上的,那么实际在实践过程中肯定要比这个理论上相比较要复杂一些,但是所有的复杂操作,所有的逻辑操作都是依据于什么样理论的基础之上。
理论通了你的代码才会通,理论不通,代码就不通。最简单的一个例子就是你的想法错了,那你做的事情都是错的,你想法对了,那你做的做的事情都是对的。所以说我们首先第一点理论先确立再去数仓的搭建以及模型的建立。
以上整个过程就是我们所说的一个概念分析,当然它里面可能有一些使用的模型。比如说星型模型,雪花型模型等等一系列模型。