DataWorks 智能数据建模介绍
作者:爱桐,DataWorks 产研团队
一、 DataWorks智能数据建模-产品建设背景
2009 年,DataWorks 就已经在阿里巴巴集团立项,支撑阿里巴巴数据中台建设,一路见证阿里巴巴大数据建设之路。
2020 年之前,DataWorks 支持的是开发视角、自底向上、小步快跑,快速满足业务需求为首要目标的数仓构建模式,然而随着内部数据模型越来越多,线下评审流程越来越复杂,淘宝、天猫、盒马、菜鸟等多个数据仓团队开始和DataWorks 合作,构建DataWorks 智能数据建模产品,支持业务视角自顶向下的规范化数仓建设,也可以支持传统的开发视角、自底向上的数仓构建模式,真正做到规范化、可持续发展地构建数据仓库。
2021 年云栖大会,DataWorks 智能数据建模正式发布,在阿里巴巴集团内各个业务团队投入生产,并在阿里云上服务世界500 强亿滋中国等众多客户。
二、 DataWorks智能数据建模-业务痛点
在智能数据建模产品正式发布之前的这十多年时间里,阿里巴巴的各个数仓团队实际上并不是不需要进行数据建模,而是采用线下excel 建模评审的方式在开展这一项工作,流程本身非常规范,模型的上线及变更有着非常严格的评审流程,但即使如此,线下建模还是有它的弊端存在。线下建模的弊端主要体现在三大方面:规范定义、模型设计、数据开发。
从规范定义方面来讲,存在的主要问题是:
数仓规范与模型设计分离,符合规范的模型设计对建模师本身的要求非常高,既要能把业务需求高度抽象进行模型设计,还需要牢记规范的点点滴滴。
数据指标定义效率低,且指标的数据加工逻辑分离,过去传统的单个创建指标效率相对低下,且无法保证指标的唯一性,指标的加工逻辑和指标定义本身也存在脱节的情况,最终导致指标真实口径无法统一,进而带来了大量的针对指标结果数据不一致的对焦工作。
应用层缺少规范,大多数应用层的建设都面临需求多变、需求开发时间紧、任务重的特点,也对应用层模型规范的管理带来了非常高的挑战。既要能够满足业务需求,又要能够符合规范,其实很难再短时间内完成这些工作。
从模型设计方面来讲,存在的主要问题是:
纯人工的模型设计效率低下,比如要在excel 里做模型设计,并且需求在excel 里做维护。
从数据开发方面来讲,存在的主要问题是:
模型设计和物理表开发分离,模型设计是模型设计,物理表开发是物理表开发,很有可能会造成物理表开发逻辑与模型设计理念存在或多或少的差异情况。
此外,本地建模,还会存在着一些隐藏的问题,如文件管理混乱、硬件设备故障、工作交接难等问题。
《全链路数据治理-智能数据建模 》——DataWorks 智能数据建模介绍(2) https://developer.aliyun.com/article/1230965?groupCode=tech_library