阿里云 DataWorks 智能数据建模(一)| 学习笔记

简介: 快速学习阿里云 DataWorks 智能数据建模

开发者学堂课程【智能数据建模训课程 :阿里云 DataWorks 智能数据建模(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1223/detail/18311


阿里云 DataWorks 智能数据建模

 

内容介绍:

一、相关背景

二、智能数据建模的产品的业务价值

三、数据建模的方法论

四、数仓分层的工作方式

五、DataWorks 智能数据建模的产品功能

六、DataWorks 智能数据建模的产品功能

七、怎么买建模以及建模收费方式

 

今天主要介绍一下 DateWorks 智能数据建模的核心产品能力和产品购买方式。在介绍产品功能之前,先介绍一些相关的背景知识。

image.png


一、相关背景

首先,Dateworks 实际上是在2009年就已经在阿里巴巴集团立项,当年的 Hadoop 集群的话规模已经高达1000台,其中 Dateworks 在2021年之前实际上是开发视角自底向上小步快跑,并且能够快速满足业务需求为主要目标的出仓构建模式。2021年智能数据建模发布之后,Dateworks 可以支持业务视角自顶上自顶向下的规范,出仓建模,也可以支持传统的开发视角,自底向上。建模式真正能够做到规范化、可持续发展的构建数据仓库。

image.png

在智能数据建建模产品正式发布之前的这十多年时间里面,阿里巴巴的各个数仓团队,实际上他并不是说不去做数据建模,而是采用的线下造建模评审的方式去开展这一项建模工作。流程本身的话其实非常规范,并且模型的上线以及变更的话,它有着非常严格的一个评审流程。但是即便如此的话,其实线下建模它还是会存在很多问题,就是有它自己的弊端存在。线下建模的弊端的话,主要可以从三个方面去讲,总结一下:可以是规范定义,模型设计和数据开发。那从规范定义方面来讲的话,它存在的主要问题是数仓规范与模型设计分离,符合规范的模型设计模型,建模式本身来讲的话其实要求高。

image.png

建模是需要既要能够把业务需求高度抽象进行模型设计,还需要能够牢牢记住大家一起制定好的树仓规范里面的点点滴滴,任何一个细节都需要记住,不然的话他可能制定出来的模型是会不太符合规范的。第二点的话就是数据指标定义的效率其实会比较低,并且的话指标的数据加工逻辑和指标的定义其实是分离的,那过去传统的单个创建指标的这种创建方式,首先效率还会比较低下。那其次的话,其实这种也没有办法去保证指标的唯一性,再次就指标的加工逻辑和指标定义本身也存在错别的情况,最终就会导致说指标口指标的真实口径无法统一。这样会带来大量的一个针指标,结果数据不一致的一个焦工作。有大量的沟通工作存在。

其次就是在规范定义方面来讲,还有一个应用层缺少规范的一个痛点,这一点,就是大多数应用层的建设,它其实都会面临一个需求多变,需求开发时间紧,任务重的一个特点,数应用层的模型规范的管理本身带来了非常大的一个挑战,因为如果说是既要能够满足业务需求,又要能够符合规范在短时间内去完成这些工作的话会很难。第二、从模型设计方面来看,那从模型设计方面来看,它存在的主要问题是说纯纯人工的这种模型设计方式,可能像工作效率会比较低下,所以看下,那于是说我在 Excel 里面去做各种模型设计,然后并且在去 Excel 里面去做维护等等,第三数据开发方面来讲的话,它存在的主要问题是模型设计与物理表的开发分离,模型设计是模型设计,数据开发是数据开发,那最后有可能导致就是说我数据开发的逻辑和模型设计的理念的话,其实会或多或少的会存在一些差异。

此外,除了这三点以外,其实本地建模它会还会有一些隐藏的问题存在,比如说当我们的文件足够多的时候,可能我管理的时候就会存在很混乱的情况。然后也会存在比说我们电脑坏了,硬件设备坏掉了或者被偷掉偷偷掉了都有可能会存在。另外本地建模以我的文件管理的方式的话,在做工作交接的时候,其实也会存在很大的不便性,有可能就丢掉了就没有了。

 

二、智能数据建模的产品的业务价值 

image.png

数据建模,它作为数创规范本身来讲的话,其实最大的受益者是企业自身,但是企业的价值如果想要去实现的话,它必须要通过一线研发人员的价值来体现。于一线研发同学来讲,其实智能数据建模,能够为大家带来的最大的好处就是工作提效,相比传统的纯开发或者是线下建模,线上开发这种工作方式来讲的话,智能数据建模为大家带来的是说更加高效的建模和研发的工作方式。由此的话其实能进一步帮助企业去做好企业数据体系的一个规范性建设,让数仓规范的好处真正落到实处。

其次是当我们企业规范,数仓规范以后,能为企业能够沉淀大量的系统性的核心数据资产,同时也能顺其自然的能够降低企业比较昂贵的一个计算成本和存储成本。

 

三、数据建模的方法论

现在其实市面上主流会有范式建模和维度建模。但我们产品,实际上是采用的基于是维度建模方法论去做的,本质上跟我们所处的环境是有关系的。阿里巴巴大多数业务的话,既要在过去的发展过程中既需要既既是高速发展的,又是变化多端的同时也是数据量会非常大。

阿里巴巴的数仓团队在面临这样的业务情况的基础之上选择了用维度建模来去做一个主流的方法,就是建模方法论。

image.png

因为我们智能数据建模它本质上是阿里巴巴自研的一款产品,所以是说它生于阿里,长于阿里,那也是基于阿里本身的一个特点,所以产品会围绕维度建模方法论去做产品建设

 

四、数仓分层的工作方式

image.png

一般来讲,我们会把数仓分层分为三大层:ODS 、CDN和ADS。

1、ODS 层

ODS 我们会称为天然层。ODS 主要是用于存存储业务系统同步来的业务数据,一般情况下的话我们不会  ODS 的数据做过多的加工,这样的话其实是方便我们后续在 ADS 和 CDM 数据出错的时候能够快速准确的溯源。换句话说 ODS 不是数仓同学设计出来的而是我们直接业务系统的一个同步。

2、CDM 层

CDM 实际上是数仓建设过程中最重要的一层,我们通常称为公共层,CDM 层需要业务进行一个高度的抽象,它需要具备通用性、易用性、复用性。因此,公共层的建设数据数仓的同学来讲,其实要求是非常高的。那这些同学的话,他既要具备非常精通我们的建模方法,同时也要业务的情况。这两层的再去做细分的时候我们一般会分为 DWD(明细数据层)、DWS(汇总表,我们一般也会叫他是轻度汇总表)

3、ADS 应用层

ADS 应用层,它其实是在数仓的整个范围内最难管理的,但是管理好了之后它的效果会非常明显。ADS 层可能它有非常大量的表存在,而且用户用的就是一般业务分析同学用的版本,其实频率也是最高的,那这一层如果说是规范起来的话,那可能就是我们需要建设的表也少了,然后查的时候可以统一用一个逻辑去查,这样的有可能它的存储和计算成本就是会降低很多。但是在 ADS 这一层即使是说用的最频繁,面向业务这一层,也不是说这一层在模型设计之前也需要去了解清楚我们的应用场景,因为不同的业务场景模型的设计要求是完全不一样的,这块儿的话难点在于我们的收藏到底应该怎么去划,比如我业务板块应该怎么去划分,我的数据怎么划分,数据集是怎么划分,这个是真正难的地方。

image.png

这一页的名词解释的话就不做过多介绍了,大家在使用产品的过程中在我们的产品界面上也会有一些介绍,具体每个定义它到底是什么意思,是怎么去用的,这些在产品上也都会有提示的。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
SQL druid 搜索推荐
最强最全面的数仓建设规范指南 (一)
本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!
14406 2
|
大数据
《大数据之路:阿里巴巴大数据实践》| 每天读本书
本书是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。
4316 0
|
7月前
|
供应链 前端开发
如何做好供应商分级管理?一文讲清供应商全生命周期管理
本文探讨了供应商分级管理的必要性及合理分类方法,解析了如何通过供应商管理系统实现全生命周期管理,涵盖从潜在供应商评估到淘汰退出的各个环节。文章介绍了多种分级模式,如按合作关系、物料重要性及绩效评分进行分类,并结合DMAIC模型实现高效供应商管理。通过系统化策略,企业可提升管理效率、降低成本,优化供应链协同效率。
|
10月前
|
监控 安全 搜索推荐
智慧校园云平台如何优化资源配置?
智慧校园云平台是教育信息化的核心工具,融合云计算、大数据、物联网和人工智能技术,为学校提供全方位数字化管理与服务。平台通过统一资源管理、智能调度分配、个性化学习路径、自动化流程、家校互动优化等功能,提升资源使用效率和教育公平性。同时,借助数据分析支持科学决策,促进校内外资源共享与协同,强化环境安全监控及财务管理智能化,推动可持续发展。这些措施共同助力教育管理的高效与前瞻。
343 22
|
9月前
|
人工智能 Java API
MCP客户端调用看这一篇就够了(Java版)
本文详细介绍了MCP(Model Context Protocol)客户端的开发方法,包括在没有MCP时的痛点、MCP的作用以及如何通过Spring-AI框架和原生SDK调用MCP服务。文章首先分析了MCP协议的必要性,接着分别讲解了Spring-AI框架和自研SDK的使用方式,涵盖配置LLM接口、工具注入、动态封装工具等步骤,并提供了代码示例。此外,还记录了开发过程中遇到的问题及解决办法,如版本冲突、服务连接超时等。最后,文章探讨了框架与原生SDK的选择,认为框架适合快速构建应用,而原生SDK更适合平台级开发,强调了两者结合使用的价值。
12371 33
MCP客户端调用看这一篇就够了(Java版)
|
11月前
|
JSON API 数据安全/隐私保护
1688 商品详情API接口(1688API 系列)
1688 商品详情 API 接口是电商应用开发中的关键工具,尤其适用于整合 1688 平台的商品数据。该接口提供商品的基础属性、价格、库存、图片、描述及商家信息等多维度数据,支持 HTTP GET 和 POST 请求方式。通过必填的商品 ID 及可选的语言参数等,开发者能精准获取并展示商品详情,提升用户体验和决策效率。响应数据包括商品名称、类目、品牌、价格区间、库存、图片列表、详细描述及商家信息等,帮助技术员高效集成接口,实现与 1688 平台的无缝对接。供稿者:Taobaoapi2014。
|
机器学习/深度学习 分布式计算 大数据
|
SQL 存储 自然语言处理
阿里云 DataWorks 智能数据建模(二)| 学习笔记
快速学习阿里云 DataWorks 智能数据建模
阿里云 DataWorks 智能数据建模(二)| 学习笔记
|
消息中间件 存储 Apache
Apache Paimon 表模式最佳实践
Apache Paimon 表模式最佳实践
4465 57