1.一站式大数据开发治理平台 DataWorks 入门(一)|学习笔记

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 快速学习1.一站式大数据开发治理平台 DataWorks 入门

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.一站式大数据开发治理平台 DataWorks 入门】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1227


1.一站式大数据开发治理平台 DataWorks 入门(一)


内容介绍:

企业数字化转型的挑战

二、DataWorks 前世今生

三、DataWorks 核心能力

四、产品方案及案例

五、产品商业化及总结

内容简介:

一共有五个部分,第一块是企业数字化转型中所面临的挑战和困难,第二块介绍发展了十一年的 DataWorks 前世今生有什么样的故事,第三块介绍 DataWorks 的核心能力,包括不同的模块以及不同的功能的简要概述,第四块是基于 DataWorks 的产品方案以及客户案例,最后是产品商业化以及针对所有内容的小结。


一、企业数字化转型的挑战

image.png

1、数据孤岛时代

各业务系统的数据表独立服务单一的业务系统

数据库

数据建模-建表-数据库备份

2BI时代

主要支持BI数据分析和报表系统,响应即席查询

基础数据仓库

数据汇集-数仓建模-历史存档

3、DI时代(数据智能)

为DI数据智能应用提供高保障的数据

数据中台

全域数汇聚-数据融合加工-数据治理体系-数据共享开放

目前经历的是数据智能的时代,包括现在阿里巴巴在外面提到的数据中台的概念,也有很多企业开始用数据中台的理念作为它企业的数字化转型的基础设施,通过数据中台实现全域数汇聚数据融合加工数据治理体系数据共享开放数据中台它其实不是一个具体的产品,但是可以通过DataWorks以及它下面的计算引擎,非常好的完成企业数据中台的建设

4、企业/政府数据中台建设面临的核心痛点

(1)数据孤岛

数据不集中、重复存储、重复计算,数据分散无法连接有非常多的业务系统把数据分散在各个不同的角落,会导致的数据的重复计算,重复的存储以及数据无法做有效的连接

(2)数据开发和运维成本高

自研数据平台难度大、成本高,扩展性、稳定性、数据质量难以满足业务快速增长数据开发和运维的成本相对而言是比较高的,如果采用开源的技术体系,要真的满足企业在一个业务快速增长当中的扩展性稳定性的要求,所投入的成本还是非常的高。

(3)数据共享应用不易

数仓中的数据对接各类BI或应用不便,数据难以在不同部门门和合作伙伴之间共享数据共享数据的应用和服务,阿里巴巴在这些年的建设过程中会认为里面核心的问题还是数据共享的安全问题。沉淀了非常多的经验,可以保证企业在满足安全的情况下非常好的进行数据共享与应用。

(4)大规模数据难以治理

随着数据规模的不断增大,数据治理越发难以进行,数据质量、监控、安全逐渐成为瓶颈随着开始建设数据中台会有非常多的数据,从各种各样的地方不断的源源汇过来,会造成数据中台的数据开始有一个爆发式的增长,如何在大的规模下去进行比较好的数据治理,包括进行数据质量的发现和监控,逐渐会成为企业,政府数据中台面临比较核心的问题。


二、DataWorks 前世今生

阿里巴巴在11年当中都是通过 DataWorks 以及底层的计算引擎 maxcompute 进行的数据中台建设

1、DataWorks :站式大数据开发治理平台

DataWorks 它本身不做大数据的计算和存储,它是基于的各种大数据计算引擎DataWorks 基于 MaxCompute/EMR/MC Hologres 等大数据计算引擎为客户提供专业高效、安全可靠的站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。

image.png

通过这个图可以看见底层灰色的部分是计算存储引擎,上面实现数据集成、全域的数据集成、数据中心、任务调度、数据开发以及数据治理,这样一个架构逻辑。

2、阿里巴巴十一年数据中台建设黄金搭档

(1)阿里巴巴在11年中都是通过都DataWorks以及底层的计算引擎MaxCompute进行的数据中台建设的,基于飞天大数据平台和飞天AI平台,平台内部,比如芝麻信用,数据银行,生意参谋等各个数据应用,包括集团的数据业务,比如钉钉,淘宝,天猫,支付宝等等,所有的内容,数据的业务,数据应用都是通过底层的MaxCompute计算引擎加一站式开发与治理平台DataWorks做支撑的。

22019年双11 , DataWorks 支撑F万级日调度, MaxCompute 大数据计算引|擎处理982PB数据阿里巴巴所有数据的开发与加工几乎都是放在这两个产品上面。

32018财年全球最大的移动经济实体集团全年GMV 4.82万亿集团全年收入2502亿月活跃用户数6.17亿全年收入增幅88%单日处理数据600PB单日任务调度数1000万实时计算17.18亿条/秒个性化推荐453亿次支撑集团99%数据业务构建支持集团99%数据应用构建数据资产智能监控数据分析数据质量数据安全数据共享统一调度统一编排MaxCompute 大规模离线计算引擎E-MapReduce 开源大数据计算引擎Real-timeCompute 实时计算引擎PAI机器学习平台交互式模型训练模型在线预测大规模分布式训练

3、飞天大数据平台:阿里巴巴十-年大数据&AI最佳实践

1)2009

进入空气稀薄地带,开源?自研?飞天的第一行代码,阿里云技术之路的起点。

2)2015

登月计划,突破调度5000台服务器,投10年,投10个亿,中国第一家拥有完整的云计算能力的企业,一飞冲天。

3)2016

全球化,飞天云操作系统获得中国,电子学会16年来颁发的唯一科技迸步奖特等奖

4)2017

商业化,阿里云大数据品牌“数加”20+款大数据产品MaxCompute+DataWorks 普惠大数据

5)2018

驱动数字中国 MaxCompute 再次打破排序世界纪录 DataWorks 一站式智能云研发平台飞天X城市大脑2.0

6)2019

飞天大数据平台,中国唯一自研计算引擎,规模最大、数据处理能力最强,数据综合治理体系,AI加持的飞天大数据平台

最开始产品在2006年 DataWorks 就立项了那个时候也是阿里云刚成立的日子,在15年时,当这个产品发展到一定程度时,整个集团开始了轰轰烈烈的登月计划,开始把所有的计算的存储都放到 MaxCompute 之前,的odps上面,把任务的调度与开发全都放在 DataWorks 上面,包括后面的2016年、2017年、2018年通过阿里云做全球化商业化的输出,去赋能各行各业,去普惠大数据相关的内容在2019年时,开始真正把一整套的大数据以Al的最佳实践统一到飞大数据平台上面里面包括的自研的计算引擎 MaxCompute,它拥有规模最大数据能力处理能力最强的一个大数据计算引擎,以及的 DataWorks 自带的阿里巴巴数据治理的最佳实践包含它自身的数据开发等一系列的功能,以及各种各样的比如emr,实时计算、Hologres图计算等各种各样的引擎都包含在飞天大数据平台里面,并且它和AI机器学习相关的平台能够互为补充,形成一个双生的系统能够帮助企业更好的去落地大数据Al的最佳实践,这个就是整个 DataWorks 从09年一直发展到2022年,整个11年的一个发展历程。

4、DataWorks :飞天大数据平台操作系统

DataWorks 它是整个飞天大数据平台的操作系统,比如的数据存储和计算会分布在底层的各种各样不同的引擎上面,它有可能是自研的 MaxCompute 的,有可能是开源的 mr也有可能是实时的 flink或者各种各样的引擎,但是这些引擎,如果让们非常高效的跑起来,非常高效运用起来,必须要有一个图形化、界面化站式的开发和治理的系统,才能够让这些数据去进行比较好的应用。比如光有一个硬盘,存储了很多的数据,但是如果没有一个操作系统来对硬盘进行比较好的,假设目录结构查询数据的复制链接,其实效率是比较低的,通过DataWorks加上大数据引擎,能够赋能各个行业里面的数据,智能相关的应用这个是DataWorks在飞天大数据平台中的定位。

8大核心引擎+1个操作系统

(1)DataWorks一站式大数据开发治理平台

全域数据集成,跨引擎智能云上开发,大数据综合治理。

(2)阿里大数据计算引擎

BigBench评测全球第一,规模最大,可扩展到10万台

(3)开源大数据计算引擎

打破多项世界纪录,全球首个通过TPC公认证的公共云产品

(4)实时大数据计算引肇

Apache Flink团队官方出品,首批通过流计算产品能力测评产品。

(5)图计算引擎

应用集团内50多个业务场景,支持百亿点、千亿边规模的超大图存储。

(6)交互式分析引擎

PB级数据亚秒级查询与实时计算引擎构建实时数仓

(7)智能推荐引擎

领先的算法及模型能力,阿里巴巴智能推荐技术输出,自研分布式搜索引QPS峰值近百万,阿里巴巴搜索服务技术输出。

(8)开源搜索引擎降低成本并大幅提升原生性能,100%兼容开源 Elasticsearch

5.DataWorks 产品架构

image.png

通过架构图更加详细的展示出DataWorks整个的产品架构是什么,底层是大数计算引擎,在数据集成这一步,会通过权益的数据集成,支持批量增量实时的各种各样的数据同步把数据导到的计算引擎中,会进行统一的数据以及统一的任务调度,这个在整个产品架构中成起到了一个承上启下的作用,不管是底层的数据以及上面要基于数据开发以及和数据治理都是非常核心的板块。在数据开发这一层,会有非常多的不同的 studio比如有离线的,有实时的studio,有交互式分析studio,基于这些数据开发,还可以进行数据相关的治理的内容,以及统的数据服务对外做共享。最后是的 open API,也是下半年重磅发布的一个开放平台,就是企业可以基于API系统进行定制化需求功能的实现。

6DataWorks 产品核心价值

DataWorks + MaxCompute 阿里巴巴大数据建设最佳实践与方法论的“十年”结晶只需要在云上通过云源生的形式开箱 “一日”即可拥有如果选用了emr或者 Hologres 或者实时计算大数据相关的引擎,也可以通过 DataWorks 做这样的实现这个是产品的核心价值。

(1)功能健全

一站式全域数据平台性能卓越,覆盖数据研发全生命周期;日PB级数据同步;日千万级任务调度

(2)便捷易用

云上全图形化操作界面,图形代码互转,1小时上手大数据全流程研发;阿里数千名运营小二都在用

(3)降本提效

云原生、全托管,开箱即用,相比自研或使用开源工具,有效降低平台研发和运维成本,让您专注于业务本身,购买开通即可。

(4)安全稳定

租户隔离,细粒度,权限控制,金融级数据安全保障;通过“双11"稳定性考验

7DataWorks 合规认证及荣誉奖项

公安部信息安全等保三级认证

中国信通院&数据中心联盟数据集成工具能力评测认证

中国电子技术标准化研究院信息技术大数据系统通用规范认证

中国信通院&数据中心联盟数据管理工具能力评测认证

2017年中国国际软件博览会金奖

2018年中国国际大数据产业博览会"十佳大数据案例”

2018年中国数字化转型与创新评选“最佳大数据产品奖"

入选 The Forrester Wave : Cloud Data Warehouse, Q4 2018报告,领跑Contenders 分组

2019年大数据产业峰会”年度大数据创新产品”

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
数据采集 SQL 运维
1.一站式大数据开发治理平台 DataWorks 入门(二)|学习笔记
快速学习1.一站式大数据开发治理平台 DataWorks 入门
1.一站式大数据开发治理平台 DataWorks 入门(二)|学习笔记
|
数据采集 SQL 存储
DataWorks数据质量介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》
数据质量问题虽然从数据工程师的角度来看是个简单问题,但是从业务的角度来看是个很严重的问题。所以数据质量是数据开发和治理全生命周期中,非常重要的一个环节。在DataWorks产品版图里,数据质量也是非常重要的模块之一。
4412 0
DataWorks数据质量介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》
|
6月前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何进行数据治理
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
111 0
|
DataWorks 大数据
《阿里云产品手册2022-2023 版》——大数据开发治理平台DataWorks
《阿里云产品手册2022-2023 版》——大数据开发治理平台DataWorks
221 0
|
DataWorks 大数据
《一站式大数据开发治理DataWorks使用宝典》电子版地址
《一站式大数据开发治理DataWorks使用宝典》由9位阿里巴巴DataWorks产品专家领学精心打造,全面介绍了DataWorks十大功能模块,以动手实操的方式清晰使用方法及开发流程,帮助用户快速上手DataWorks核心功能。如果你有自定义数据治理方面的需求,学习DataWorks绝对是你的不二选择。此书也定能成为你学习之路的宝典,快来一起过关斩将吧!
280 0
《一站式大数据开发治理DataWorks使用宝典》电子版地址
|
存储 机器学习/深度学习 人工智能
一站式大数据开发治理平台 DatatWorks 入门 | 学习笔记
快速学习一站式大数据开发治理平台 DatatWorks 入门,介绍了一站式大数据开发治理平台 DatatWorks 入门系统机制, 以及在实际应用过程中如何使用。
一站式大数据开发治理平台 DatatWorks 入门 | 学习笔记
|
存储 弹性计算 分布式计算
1.一站式大数据开发治理平台 DataWorks 入门(三)|学习笔记
快速学习1.一站式大数据开发治理平台 DataWorks 入门
1.一站式大数据开发治理平台 DataWorks 入门(三)|学习笔记
|
存储 数据采集 运维
DataWorks 数据治理介绍和实践 | 学习笔记
快速学习 DataWorks 数据治理介绍和实践,介绍了 DataWorks 数据治理介绍和实践系统机制, 以及在实际应用过程中如何使用。
DataWorks 数据治理介绍和实践 | 学习笔记
|
存储 数据采集 分布式计算
11.DataWorks 数据治理介绍和实践(一)|学习笔记
快速学习11.DataWorks 数据治理介绍和实践
11.DataWorks 数据治理介绍和实践(一)|学习笔记
|
运维 分布式计算 DataWorks
11.DataWorks 数据治理介绍和实践(二)|学习笔记
快速学习11.DataWorks 数据治理介绍和实践