《全链路数据治理-智能数据建模 》——数仓建模理论与规范(1) https://developer.aliyun.com/article/1231086?groupCode=tech_library
二、 模型架构设计核心思想
1. 核心原则
模型架构设计的核心原则是高内聚、低耦合,即在域内内聚,域之间耦合,以及业务和模型的耦合,在此之上实现稳定性、扩展性、建设效率、产出效率和使用效率。
2. 核心过程
模型架构设计的核心过程有四个步骤:数据分层、业务分类、数据分域、模型设计(包括:确定维度、确定事实、确定模型)。
三、 数据分层架构设计
数据分层架构主要包含三个层次。
1. 贴源层:ODS(Operational Data Store)操作型数据存储层
面向业务的原始溯源性,贴原从业务系统引入并组织数据。
2. 中间层:CDM(Common Data Model)公共数据模型层
面向业务通用性,易用性、复用性,组织公共通用明细数据与汇总数据。包括三种
类型数据:
• DWD(Data Warehouse Detail):明细类数据事实表
• DWS(Data Warehouse Summary):汇总类数据事实表
• DIM:维度表
3. 应用层:ADS(Application Data Service)应用数据服务层
面向业务应用视角组织数据,一般是面向产品、业务场景进行公共数据组合与个性化计算。
下图右边以淘宝为例,列举淘宝三个核心Project(tbads、tbcdm、tbods)
四、 数据分域架构设计
数据分域分为三个步骤:收集、提炼、归纳。
1. 收集:业务数据需求、存量数据梳理
• 核心目的:对现有数据和业务诉求需要的数据进行merge,保障数据仓库的完
整性,形成数据全集。
• 核心对象:分析师、业务运营人员、数仓开发者。
• 核心输出:粒度、维度、数据指标、使用场景等信息。
2. 提炼:业务过程、业务梳理
业务过程:指企业的业务活动行为,如点击、浏览、下单等,业务过程是一个不可拆分的行为事件。
• 核心目的:对收集的数据全集,进行业务关键词(包括业务过程、业务元素)提炼,根据经验罗列分类。
• 核心对象:数据模型架构师。
• 核心输出:业务过程、业务元素列表。
3. 归纳:数据域
数据域:面向业务,根据业务过程进行分类,组合抽象而成的数据集合。数据域不能轻易变动,在划分数据域时,既能覆盖当前所有的业务场景数据,又能在新业务进入时被融入,或对整体架构无影响下的扩展新数据域。
• 核心目的:对业务过程、业务元素的列表进行抽象,尽量避免边界模糊不清,归纳出数据域名称。
• 核心对象:数据模型架构师。
• 核心输出:数据域大图,包括核心业务过程与元素的包含关系。
下图用实例来介绍数据分域过程中如何进行收集、提炼和归纳:
《全链路数据治理-智能数据建模 》——数仓建模理论与规范(3) https://developer.aliyun.com/article/1231083?groupCode=tech_library