一站式大数据开发治理平台 DatatWorks 入门 | 学习笔记

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习一站式大数据开发治理平台 DatatWorks 入门,介绍了一站式大数据开发治理平台 DatatWorks 入门系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【一站式大数据开发治理平台 DataWorks 初级课程一站式大数据开发治理平台 DatatWorks 入门】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/763/detail/13354


一站式大数据开发治理平台 DatatWorks 入门


内容介绍

一、课堂内容介绍

二、企业数字化转型的挑战

三、DatatWorks 前世今生

四、DatatWorks 产品核心能力

五、产品方案及案例

六、产品商业化及总结


一、课堂内容介绍

本节课主要内容为对产品进行基础的了解,后面会有不同的产品经理分享不同模块的内容。

本节课分为五大模块,第一块主要讲解企业数字化建设中主要面临的挑战与困难,第二块是介绍发展了11年的 DatatWorks 的前世今生到底有一些怎样的故事,第三块介绍 DatatWorks 的核心能力,包括 DatatWorks 的模块,第四块讲解基于 DatatWorks 的产品解决方案和案例,最后一块进行产品商业化以及所有课堂内容的总结。

 

二、企业数字化转型的挑战

image.png

(1)数据中台

目前所处在 DI 时代,进入一个数据智能的时代,阿里巴巴提出的数据中台的概念。

很多企业将数据中台的理念作为数据化转型的基础设施

通过数据中台实现数据的全域汇聚,数据的加工,数据的治理以及数据的共享开放。注意数据中台不是一个具体的产品,但是可以通过下属的计算引擎发非常好的完成数据中台的建设,包括往下分享的阿里巴巴数据中台建设的实例和经验。

(2)企业/政府数据中台建设面临的核心痛点

1.数据孤岛:非常多的数据系统,把数据分散在各个不同的角落,导致数据重复的计算、存储,数据无法做有效的连接

image.png

2.数据开发运维的成本开发高:选用开运的业务体系,如果要满足企业增长性,稳定性,投入企业成本高

3.数据共享应用不易:根据阿里巴巴多年的工作总结,数据共享的核心问题为安全问题,阿里报表沉淀的经验可以保证在满足企业数据安全性的前提下非常好的满足数据的共享与应用

4.大规模数据难以治理:随着数据中台的建立,数据不断地从不同地方汇聚,导致数据中台的数据爆炸式的增长,如何保证数据的质量,监控,安全。

逐渐成为企业或政府建立数据中台面临的一个核心问题


三、DatatWorks 前世今生

(1)DatatWorks 定义与功能

DatatWorks 本身不做大数据的计算和存储,基于

MaxCompute/EMR/MC-Hologres 等大数据计算引擎,为客户提供安全高效的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理的最佳实践,赋能个行业数据化转型

如图:

image.png

通过上图底层灰色部分为数据计算引擎,会实现全域的数据基层,全域的数据中心,元数据的调度,数据开发,数据治理的架构逻辑。

(2)阿里巴巴十一年数据中台建设黄金搭档

黄金搭档为 DatatWorks 与计算引擎 MaxCompute

基于飞天大数据平台和飞天 AI 平台,企业内部芝麻信用等各个的数据应用,包括集团的数据业务,比如各个板块:钉钉淘宝等,所有的内容,数据的应用,都是通过MaxCompute 计算引擎与一站式大数据开发与治理平台 DatatWorks 进行支撑

2019年双十一最新数据,DatatWork 支撑千万级日调度,MaxCompute 计算引擎处理982pb 的数据

image.png

(3)飞天大数据平台:阿里巴巴十一年大数据&AI 最佳实践

通过时间轴进行讲解 DatatWorks 的发展历史

最开始2009年产品开始,王院士在央视节目朗读者节目中,提出空气进入稀薄地带,在争议中写下飞天第一行代码

15年,在平台取得一定成绩时,启动登月计划,将所有的计算存储放入MaxCompute,将全部任务的调度与开发放入 DatatWorks

2016年和2018年通过阿里云进行全球商业化的输出,去赋能各行各业,普惠大数据相关的内容

2019年真正将大数据的整个内容通过数据的AI实践到飞天的大数据平台上,包括自研的计算引擎 MaxCompute,拥有最大规模,数据处理能力最强的计算引擎,以及自带DatatWorks 阿里巴巴最佳数据实践,另外包含多个图计算等计算引擎在飞天大数据平台当中,并且与AI的其他平台互为补充,形成双生系统,帮助企业更好的去落地大数据 AI 的最佳实践

image.png(4)DatatWorks 飞天大数据平台操作系统

image.png

DatatWorks 作为飞天数据平台的操作系统,各种数据存储底层的各种计算引擎中,但必须存在一站式图形化的数据系统,才能使各种引擎高效运行

如同一个硬盘存储大量数据,但没有一个操作系统对硬盘进行普通结构管理,数据的查询等,总体而言效率则较低

DatatWorks 加大数据计算引擎,可以赋能各国行业的数据化智能智能应用,是DatatWorks 在整个飞天大数据平台的定位

(5)DatatWorks 产品架构

通过架构图进行描述

image.png

底层为大数据计算引擎

数据集成步骤,通过全域的数据集成来支撑批量、增量、实时的各种各样的数据同步将数据导入计算引擎当中。

然后进行统一的源数据,统一的任务调度,起到承上启下的作用

在数据开发,存在不同的 studio,离线的 studio、实时的 studio、交互式分析的studio。

基于数据开发还可进行数据治理的内容,以及统一的数据服务,对外的共享。

最后 OPen API 为今年下半年重磅发布的一个开放平台,企业可以基于 API 系统来进行定制化需求的实现。

(6)DatatWorks 产品核心价值

image.png

DatatWorks 与 MaxCompute 是阿里巴巴自身大数据建设的最佳结晶,只需要在云上通过云延伸的形式,开户即可拥有。

如下:DatatWorks 获得的相关荣誉

image.png

 

四、DatatWorks 产品核心能力

(1)DatatWorks 的数据集成

image.png

如果在云上实现大数据,第一步将数据同步到云上,数据集成几乎是所有企业实现云上的第一步,DatatWorks 的数据集成支持实时同步、离线同步、整库迁移,整库迁移:可以把线下 MYcal 数据库批量的同步到云上,以便提高数据上云效率。支持很多的数据源,如:宏观数据,大数据存储等包括实时同步相关的功能也可以支持。

对于所有企业来说最为核心的是针对大数据上游核心网络问题

DatatWorks 可以很好的提供数据源,包括同步速度的设置,完成上游与下游的数据体验

(2)DatatWorks 全链路数据开发平台

image.png

通过架构图进行分析 DatatWorks 的全链路开发平台,如 DatatWorks 针对不同的计算引擎实施不同的 studio,比如:离线的 studio、实时的 studio、交互式分析的studio。

通过不同的 studio 数据服务后,DatatWorks 通过共享等形式,给大屏,报表,表格等做数据的支撑。

进行讲解1.DatatWorks 离线数据开发--Data studio

Data studio 支持阿里云的 MaxCompute 和 E-MapReduce 两大数据引擎的的离线数仓开发,基于这些引擎可构建比较复杂的数据业务流程和调度依赖,提供开发、生产环境隔离的研发模式,构建多引擎的混合编排,比如:DatatWorks 离线数据开发不仅仅支持跨引擎的调度依赖,还支持跨云等调度依赖.

image.png

如:在非常极端的影响下,多个不同地域的节点均可串联到一起完成混合的编排。一个上海,北京,日本,深圳的节点都可以都过强大的离线开发能力将不同地域的节点进行串联。

2.DatatWorks 实施数据开发--stream studio

stream studio 基于阿里云实时计算引擎(Flink)构建,通过可视化拖拉拽实现实时任务。

如图 DAG 开发模式:

image.png

3. DatatWorks 的交互式分析

MaxCompute 的交互式分析是一款兼容 PostgoreSQL 协议的实时交互式分析产品,其功能可以实现 PB 级数据亚秒级查询相应。

高性能的写入,写入即可查,写入即可查而不是通过离线数据进行创建,对MaxCompute 的很多用户来说,可以支持 MaxCompute 的查询加速,通过 Hologres可以做 MaxCompute 的直接查询。

image.png

4. 机器学习 PAI

机器学习 PAI 提供学习的开发平台,可在阿里云官网进行详细学习。

5. DatatWorks 任务调度

提供千万级的大规模周期性任务调度服务,支持分钟、小时、天、月、周等周期的任务调度、同时还会支持顺序、循环、分支等流程判断

可使得流程图具有更高的可读性和可解释性.

image.png

如图仅在一个任务中将所有程序嵌套,另一个人可能很难理解,需要花费大量的时间和经历,若通过顺序、循环、分支的逻辑进行拆分的话,则会让他人面对该程序具有很好的可读性,使得工作效率提高

6. DatatWorks 的运维中心

DatatWorks 的运维通过可视化的形式,一个人就可以管理和调度成百上千个任务支持周期性和触发式的运维。

通过移动运维,在钉钉上通过小程序即可进行任务的报警和运维处理。

image.png

(3)基于 DatatWorks 的数据治理体系

1.基于 DatatWorks 的数据治理体系,能够实现整个数据的应用

2.组织设计 数据规范小组,质量小组,稳定性小组,数据安全小组

3.制度设计 在帮助文档中可观看关于数据仓库研发规范,模型以及质量保障的规范,能够帮助大家在制度设计上的保障

image.png

4.DatatWorks 的数据平台核心要素

首先第一步做到数据的发现

不管是 MaxCompute、通过元数据自动解析的形式,解析数据,当数据形成可解释的时候可形成整张的数据资产地图,基于数据资产地图提供围绕数据治理展开的功能。如数据安全:存在许多敏感数据如身份证等,告知身份证这个数段在某个时间段进行了查询,针对敏感数据的识别,实现敏感数据不可见但可用。

image.png

数据质量:存储数据质量的检测,针对产生的脏数据进行处理,

数据监控:针对海量数据会产生大量的树状图,产生不同的分支,海量计算任务监控与基线预警

如十点产出的任务,十点才产生,今天设计一个智能监控,便可自动做出任务的检测,如十点产出的任务,十点才产生,可能会导致数据的延迟影响12点的任务,即可将该情况上报,分析并解决问题保证数据的稳定产出。

资源优化:当数据越来越多的时候,存储、计算资源的优化便十分关键。

如:产生一万张表会产生重复数据,资源优化针对重复数据进行处理

或创建计算程序,发现与他人重合,此时资源是浪费的,便可以将该情况上报管理员,通过资源优化识别,进行删选,节省资源。

5. DatatWorks 的数据服务

数据服务是解决从数仓到应用的最后一公里,通过数据服务的形式实现零代码的数据应用,如大屏,报表等。所以说数据服务是从数仓到应用的最后一公里。

 

五、产品方案及案例

(1)离线实时一体化数据仓库解决方案

在传统上离线实时一体化数据仓库构建复杂而在阿里云可通过 MaxCompute、DatatWorks、MC-Hologres、Realtime compute 四个产品实现离线实时一体化数据仓库构建。功能强大的同时成本下降

image.png

(2)数据湖分析解决

数据湖存储基于 OSS 和 EMR,可以对接 DatatWorks 与OSS 开元大数据系统,能够实现整个数据湖分析的解决方案,包括EMR存在很好的加速引擎加速数据湖分析,应对广告推送等不同的业务场景

image.png

(3)智能推荐解决方案

由 DatatWorks 与机器学习 PAI 构成整体智能推荐系统,可提高平均模型准确率提升2个点

应用多个场景如:电商等

(4)宝宝树云上大数据仓库

image.png

是中国最大育婴平台之一

通过阿里云 DatatWorks 和 MaxCompute,实现整个大数据仓库的存储

基于实时化的能力,实现智能推荐等能力

对于任务提升效率和降低存储成本

通过阿里云,解决宝宝树的业务相关需求

(5)快手打车云上大数据仓库

基于飞天大数据平台,提升数据开发效率和减低数据存储效率

相对而言对于自建的数据降低了成本,提高了数据开发效率

image.png

(6)大润发云上数据中台建设

一家典型型零售企业,基于DatatWorks 产品进行整体数据中台的建设,数据速度历史迁移仅用十五天,目前已基本完工。

利用 DatatWorks 产品进行整体数据中台的建设,建设主体域,满足多个领域的应用 如报表或订单的监控,打包时间到配送完成一个订单的完成

当中台建设厚实,十分立于前台操作的应用image.png
image.pngimage.png

(7)DeNA 中国游戏全链路运营

做为全球的游戏运行公司,主要负责中国区域的构建,较高的淘汰率

较高的成本,需要数据运行的高效,对于渠道的监控和游戏内日志的采集需求

通过 DatatWorks 产品进行全链路运营,能够更经济更高效的去服务游戏的发展

image.png


六、产品商业化及总结

(1)DatatWorks 的付费模式

DatatWorks 的付费模式由产品版本和付费资源组成,产品版本类似于高级版,基础班等,付费资源如任务的调度数据的集成需要资源实现。

与计算引擎 MaxCompute 的资源不同,MaxCompute 的资源主要是满足计算与存储而 DatatWorks 的资源则是为了保证任务的调度等。

image.png

同时存在免费版本,产品版本和付费资源组成,版本存在五种形式,基础,标准,专业,企业,旗舰,针对客户,推荐专业版首月199元模式。

如果有一些定制化需求,建议开通旗舰版,付费资源分为按量收费与独享资源,按量收费,及根据任务量的多少收取费用,以阶梯收费的形式,独享资源,如果在特殊时期如618、双十一等资源紧张情况下,建议购买独享资源,首月独享资源组,数月200元,实时同步的资源必须通过独享资源组完成,支持如下组合购买,针对不同的需求

(2)总结

数据中台不是一个具体的产品,结合多项工具,可以非常好的满足客户的需求。通过介绍 DatatWorks 的前世今生和飞天大数据平台的建设,整个产品的架构,是一个安全高效,一站式的数据平台。

接下数据开发,治理的相关内容和相关案例的介绍,阿里巴巴十几年来的经验总结,最后介绍了商品开通与付费的相关内容。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
108 19
|
3月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
307 14
|
4月前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
145 2
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
2月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
186 0
|
3月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
102 14
|
2月前
|
分布式计算 大数据 Java
Scala 入门指南:从零开始的大数据开发
Scala 入门指南:从零开始的大数据开发
|
3月前
|
存储 SQL 机器学习/深度学习
阿里云数加大数据计算服务MaxCompute学习路线图:从入门到精通
将所学知识应用于实际工作中并不断进行实践和创新是提升技术能力的关键所在。用户可以结合业务需求和技术发展趋势积极探索新的应用场景和解决方案,并在实践中不断总结经验和教训以提升自己的技术水平和实践能力。
|
3月前
|
分布式计算 大数据 Java
大数据开发语言Scala入门
大数据开发语言Scala入门
|
3月前
|
IDE 大数据 Java
「AIGC」大数据开发语言Scala入门
Scala,融合OOP和FP的多范式语言,在JVM上运行,常用于大数据处理,尤其与Apache Spark配合。要开始学习,安装Scala,选择IDE如IntelliJ。基础包括变量、数据类型、控制结构、函数。Scala支持类、对象、不可变数据结构、模式匹配和强大的并发工具。利用官方文档、教程、社区资源进行学习,并通过实践提升技能。
46 0

热门文章

最新文章