《全链路数据治理-智能数据建模 》——DataWorks 智能数据建模介绍(2) https://developer.aliyun.com/article/1230965?groupCode=tech_library
五、 DataWorks智能数据建模-数仓分层
一般来说数仓会分为三大层,ODS、CDM、ADS。
其中ODS,又称为贴源层。ODS 主要用户存储业务系统同步来的业务数据。一般情况下,我们不会对ODS 层的数据做过多的加工,以便于后续在ADS 和CDM 数据出错时的溯源。换句话说,ODS 不是数仓同学设计出来的,是对业务系统数据的直接同步。
数仓建设最最重要的公共层CDM 层,CDM 层需要对业务进行高度抽象,需要具备通用性、易用性、复用性,因此,公共层的建设对数仓同学的要求是非常高的,既精通建模方法,同时也对业务情况了如指掌。CDM 层再进行细分,一般会分为DIM层-维度表,DWD 层-明细数据表,DWS 层-轻度汇总层。
数仓建设最难管但管好了效果非常明显的应用层ADS 层,ADS 层主要面向业务进行模型设计。因此,大家一定要先了解清楚模型的主要应用场景,是普通的报表分析,还是数据产品的调用等等,不同的应用场景,模型设计需要考虑的因素也不一样。如果规范化ADS 层,需要建设的表会减少,通过统一逻辑去查询,会使计算和存储成本降低。
六、 DataWorks智能数据建模-名词释义
• 业务分类:业务板块是某一大类的业务的指标和维度的集合,如电商,文娱。
• 数据域 :数据域是指一个或多个业务过程或者维度的集合,如交易域,日志域。
• 业务过程:业务过程指企业的业务活动事件,如下单,支付。
• 数据集市:面向某个应用场景或者产品的数据组织,一般会依赖数据公共层。
• 主题域:将数据集市按照分析视角进行切分,比如在电商行业,通常分为会员、交易、商品等。
• 维度:维度是用于分析数据的一个角度,一方面对维度进行可控管理,另一方面指导维度表的设计,如地理维度,时间维度。
• 维度属性:维度属性隶属于一个维度,用来描述维度的属性,如地理维度中的国家名称,省份名称。
• 时间周期:时间周期是用来明确数据统计的时间范围或者时间点,如最近30 天,自然周。
• 修饰词:修饰词是对指标统计业务范围的划定,指除了统计维度外指标的业务场景的限定抽象,如PC 端,无线端。
• 原子指标:原子指标是一般不可再细分的度量,原子指标命名=业务过程+度量。,如支付金额,访问人数。
• 派生指标:派生指标直接用于汇总表的字段,派生指标由原子指标、时间周期、修饰词(可选)组成,如最近1 天海外买家支付金额。
七、 DataWorks智能数据建模-一级产品功能
DataWorks 智能数据建模产品分为四大板块,分别是数仓规划、数据标准、维度建模和数据指标。其中数仓规划、数据标准和数据指标最终都为维度建模服务。
《全链路数据治理-智能数据建模 》——DataWorks 智能数据建模介绍(4) https://developer.aliyun.com/article/1230960?groupCode=tech_library