《全链路数据治理-智能数据建模 》——DataWorks 智能数据建模介绍(3) https://developer.aliyun.com/article/1230963?groupCode=tech_library
八、 DataWorks智能数据建模-二级产品功能
数仓规划是数仓的顶层设计,包含分层划域、维度管理、建模空间。从产品定义来讲,这些内部并不复杂。难点在于数仓怎么根据业务场景来划分。建议先用思维导图画好,有了一个大概雏形之后,再录入产品。其中一个重点功能是可视化的表名检查器配置,检查器用于规范目标分层中表的命名,将同一分层中表名称的命名格式统一,便于通过表名称,即可了解到该表所属的业务类型、作用功能、数据粒度等信息。同时,可以帮助减少后期的运维成本。系统默认创建的数仓分层和自定义新建的数仓分层均可以配置数仓分层检查器。对于建模同学来讲,建模效率会提升且产出的内容符合规范。
数据标准包含数据标准、标准代码、度量单位、命名词典。数据标准和标准代码设置好之后,可以和模型字段做关联,关联之后模型字段名称、值等都需要符合标准的设置。
数据指标包含派生指标、原子指标、修饰词、时间周期。这里重点需要说明批量创建指标,勾选构成派生指标的原子指标、修饰词、时间周期,就可以生成一系列派生指标,用于模型设计。指标创建好后有两个作用,一是可以把指标批量导入到模型里面,作为模型的字段存在。另一个是模型字段已经存在,需要跟指标做关联。
这样在物化之后可以找到指标对应的是哪个模型。维度建模支持正向建模和逆向建模。
逆向建模解决的是已有数仓冷启动的问题,主要用于将其他建模工具生成的模型反向建模至DataWorks 的维度建模中。例如,当已通过其他建模工具生成模型,此时,想更换为DataWorks 的智能建模进行后续建模工作,则可以使用逆向建模功能。该功能无需再次执行建模操作,即可快速将已有模型反向建模至DataWorks 的维度建模中,节省了大量的时间成本。
正向建模支持可视化建模、excel导入、多语言建模。可视化建模类似网页版excel的方式,把模型字段信息统一管理。在这个过程中,可以复用已经存在的物理表表机构,提升建模效率。多语言建模支持DDL、自研FML 方式建模。
建议先用可视化建模,如果需要修改字段,可以用DDL 或者FML 方式做字段的修改。在建模过程中,设置里某一字段为主键字段,非空字段,或者关联了数据标准里的标准代码,DataWorks 智能数据建模可以一键自动生成质量规则。当把模型发布到引擎中比如MaxCompute 生成环境,可以自动生成一段数据开发的简代码。
九、 DataWorks智能数据建模-数仓规划
数仓规划的整体架构如下,首先看中间部分业务分类,比如阿里的业务分为天猫、淘宝、菜鸟等等。也可以根据各个数仓团队面向的业务来划分。公共层分为三层,也就是上文讲到的DWS、DWD、DIM。
DMI 下需要区分数据域,维度表只需要分到数据域就可以。明细表需要细化到数据域和业务过程。轻度汇总层只需要指定到数据域就可以。在应用层这一部分主要是ADS 层,在实际工作中可能不止有ADS 层还会有DIM 层。产品侧是支持大家灵活设置,如果有需要可以自行创建。ADS 层需要指定到具体的数据集市和主题域。这是模型在分层划域时需要考虑到的一整套体系。
如果数仓团队负责多个业务,多个工作空间,需要复用同一套数仓规范,可以使用一下建模空间功能。建模空间是当需要管理多个DataWorks 工作空间且需要复用一套数仓规划时,面对跨多个工作空间的复杂数据体系,可以通过设计空间来共享一套数据建模工具,针对整个数据体系进行统一的数仓规划、维度建模及指标定义等工作。
十、 DataWorks智能数据建模-逆向建模
逆向建模如下图所示,可以选择表所在项目空间,表名匹配规则需要指定是模糊匹配还是精准匹配,在指定表命名规范后,会根据这些关键词来检测表,匹配规范,最终成功生成模型。
《全链路数据治理-智能数据建模 》——DataWorks 智能数据建模介绍(5) https://developer.aliyun.com/article/1230958?groupCode=tech_library