开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.一站式大数据开发治理平台 DataWorks 入门】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1227
1.一站式大数据开发治理平台 DataWorks 入门(一)
内容介绍:
一、企业数字化转型的挑战
二、DataWorks 前世今生
三、DataWorks 核心能力
四、产品方案及案例
五、产品商业化及总结
内容简介:
一共有五个部分,第一块是企业数字化转型中所面临的挑战和困难,第二块介绍发展了十一年的 DataWorks 前世今生有什么样的故事,第三块介绍 DataWorks 的核心能力,包括不同的模块以及不同的功能的简要概述,第四块是基于 DataWorks 的产品方案以及客户案例,最后是产品商业化以及针对所有内容的小结。
一、企业数字化转型的挑战
1、数据孤岛时代
各业务系统的数据表独立服务单一的业务系统。
数据库
数据建模-建表-数据库备份
2、BI时代
主要支持BI数据分析和报表系统,响应即席查询。
基础数据仓库
数据汇集-数仓建模-历史存档
3、DI时代(数据智能)
为DI数据智能应用提供高保障的数据。
数据中台
全域数汇聚-数据融合加工-数据治理体系-数据共享开放
目前经历的是数据智能的时代,包括现在阿里巴巴在外面提到的数据中台的概念,也有很多企业开始用数据中台的理念作为它企业的数字化转型的基础设施,通过数据中台实现全域数汇聚数据融合加工数据治理体系数据共享开放,数据中台它其实不是一个具体的产品,但是可以通过DataWorks以及它下面的计算引擎,非常好的完成企业数据中台的建设。
4、企业/政府数据中台建设面临的核心痛点
(1)数据孤岛
数据不集中、重复存储、重复计算,数据分散无法连接。有非常多的业务系统把数据分散在各个不同的角落,会导致的数据的重复计算,重复的存储以及数据无法做有效的连接。
(2)数据开发和运维成本高
自研数据平台难度大、成本高,扩展性、稳定性、数据质量难以满足业务快速增长。数据开发和运维的成本相对而言是比较高的,如果采用开源的技术体系,要真的满足企业在一个业务快速增长当中的扩展性稳定性的要求,所投入的成本还是非常的高。
(3)数据共享应用不易
数仓中的数据对接各类BI或应用不便,数据难以在不同部门门和合作伙伴之间共享。数据共享,数据的应用和服务,阿里巴巴在这些年的建设过程中会认为里面核心的问题还是数据共享的安全问题。沉淀了非常多的经验,可以保证企业在满足安全的情况下非常好的进行数据共享与应用。
(4)大规模数据难以治理
随着数据规模的不断增大,数据治理越发难以进行,数据质量、监控、安全逐渐成为瓶颈。随着开始建设数据中台会有非常多的数据,从各种各样的地方不断的源源汇过来,会造成数据中台的数据开始有一个爆发式的增长,如何在大的规模下去进行比较好的数据治理,包括进行数据质量的发现和监控,逐渐会成为企业,政府数据中台面临比较核心的问题。
二、DataWorks 前世今生
阿里巴巴在11年当中都是通过 DataWorks 以及底层的计算引擎 maxcompute 进行的数据中台建设。
1、DataWorks :一站式大数据开发治理平台
DataWorks 它本身不做大数据的计算和存储,它是基于的各种大数据计算引擎,DataWorks 基于 MaxCompute/EMR/MC Hologres 等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。
通过这个图可以看见底层灰色的部分是计算存储引擎,上面会实现数据集成、全域的数据集成、源数据中心、任务调度、数据开发以及数据治理,这样一个架构逻辑。
2、阿里巴巴十一年数据中台建设黄金搭档
(1)阿里巴巴在11年中都是通过都DataWorks以及底层的计算引擎MaxCompute进行的数据中台建设的,基于飞天大数据平台和飞天AI平台,平台内部,比如芝麻信用,数据银行,生意参谋等各个数据应用,包括集团的数据业务,比如钉钉,淘宝,天猫,支付宝等等,所有的内容,数据的业务,数据应用都是通过底层的MaxCompute计算引擎加一站式开发与治理平台DataWorks做支撑的。
(2)2019年双11 , DataWorks 支撑F万级日调度, MaxCompute 大数据计算引|擎处理982PB数据。阿里巴巴所有数据的开发与加工几乎都是放在这两个产品上面。
(3)2018财年全球最大的移动经济实体、集团全年GMV 4.82万亿、集团全年收入2502亿、月活跃用户数6.17亿、全年收入增幅88%、单日处理数据600PB、单日任务调度数1000万、实时计算17.18亿条/秒、个性化推荐453亿次、支撑集团99%数据业务构建、支持集团99%数据应用构建、数据资产、智能监控、数据分析、数据质量、数据安全、数据共享、统一调度、统一编排、MaxCompute 大规模离线计算引擎、E-MapReduce 开源大数据计算引擎、Real-timeCompute 实时计算引擎、PAI机器学习平台、交互式模型训练、模型在线预测、大规模分布式训练。
3、飞天大数据平台:阿里巴巴十-年大数据&AI最佳实践
(1)2009
进入空气稀薄地带,开源?自研?飞天的第一行代码,阿里云技术之路的起点。
(2)2015
登月计划,突破调度5000台服务器,投10年,投10个亿,中国第一家拥有完整的云计算能力的企业,一飞冲天。
(3)2016
全球化,飞天云操作系统获得中国,电子学会16年来颁发的唯一科技迸步奖特等奖。
(4)2017
商业化,阿里云大数据品牌“数加”,20+款大数据产品MaxCompute+DataWorks 普惠大数据。
(5)2018
驱动数字中国 MaxCompute 再次打破排序世界纪录 DataWorks 一站式智能云研发平台飞天X城市大脑2.0。
(6)2019
飞天大数据平台,中国唯一自研计算引擎,规模最大、数据处理能力最强,数据综合治理体系,AI加持的飞天大数据平台。
最开始产品在2006年 DataWorks 就立项了,那个时候也是阿里云刚成立的日子,在15年时,当这个产品发展到一定程度时,整个集团开始了轰轰烈烈的登月计划,开始把所有的计算的存储都放到 MaxCompute 之前,的odps上面,把任务的调度与开发全都放在 DataWorks 上面,包括后面的2016年、2017年、2018年,通过阿里云做全球化商业化的输出,去赋能各行各业,去普惠大数据相关的内容,在2019年时,开始真正把一整套的大数据以Al的最佳实践统一到飞天大数据平台上面,里面包括的自研的计算引擎 MaxCompute,它拥有规模最大数据能力处理能力最强的一个大数据计算引擎,以及的 DataWorks 自带的阿里巴巴数据治理的最佳实践包含它自身的数据开发等一系列的功能,以及各种各样的比如emr,实时计算、Hologres图计算等各种各样的引擎都包含在飞天大数据平台里面,并且它和AI机器学习相关的平台能够互为补充,形成一个双生的系统,能够帮助企业更好的去落地大数据Al的最佳实践,这个就是整个 DataWorks 从09年一直发展到2022年,整个11年的一个发展历程。
4、DataWorks :飞天大数据平台操作系统
DataWorks 它是整个飞天大数据平台的操作系统,比如的数据存储和计算会分布在底层的各种各样不同的引擎上面,它有可能是自研的 MaxCompute 的,有可能是开源的 mr,也有可能是实时的 flink,或者各种各样的引擎,但是这些引擎,如果让它们非常高效的跑起来,非常高效运用起来,必须要有一个图形化、界面化一站式的开发和治理的系统,才能够让这些数据去进行比较好的应用。比如光有一个硬盘,存储了很多的数据,但是如果没有一个操作系统来对硬盘进行比较好的,假设目录结构查询数据的复制链接,其实效率是比较低的,通过DataWorks加上大数据引擎,能够赋能各个行业里面的数据,智能相关的应用,这个是DataWorks在飞天大数据平台中的定位。
8大核心引擎+1个操作系统
(1)DataWorks一站式大数据开发治理平台
全域数据集成,跨引擎智能云上开发,大数据综合治理。
(2)阿里大数据计算引擎
BigBench评测全球第一,规模最大,可扩展到10万台。
(3)开源大数据计算引擎
打破多项世界纪录,全球首个通过TPC公认证的公共云产品。
(4)实时大数据计算引肇
Apache Flink团队官方出品,首批通过流计算产品能力测评产品。
(5)图计算引擎
应用集团内50多个业务场景,支持百亿点、千亿边规模的超大图存储。
(6)交互式分析引擎
PB级数据亚秒级查询与实时计算引擎构建实时数仓。
(7)智能推荐引擎
领先的算法及模型能力,阿里巴巴智能推荐技术输出,自研分布式搜索引”,QPS峰值近百万,阿里巴巴搜索服务技术输出。
(8)开源搜索引擎降低成本并大幅提升原生性能,100%兼容开源 Elasticsearch。
5.DataWorks 产品架构
通过架构图更加详细的展示出DataWorks整个的产品架构是什么,底层是大数计算引擎,在数据集成这一步,会通过权益的数据集成,支持批量增量实时的各种各样的数据同步把数据导到的计算引擎中,会进行统一的源数据以及统一的任务调度,这个在整个产品架构中成起到了一个承上启下的作用,不管是底层的数据以及上面要基于数据开发以及和数据治理都是非常核心的板块。在数据开发这一层,会有非常多的不同的 studio,比如有离线的,有实时的studio,有交互式分析studio,基于这些数据开发,还可以进行数据相关的治理的内容,以及统一的数据服务,对外做共享。最后是的 open API,也是下半年重磅发布的一个开放平台,就是企业可以基于API系统进行定制化需求功能的实现。
6、DataWorks 产品核心价值
DataWorks + MaxCompute 阿里巴巴大数据建设最佳实践与方法论的“十年”结晶,您只需要在云上通过云源生的形式开箱 “一日”即可拥有。如果选用了emr或者 Hologres 或者实时计算大数据相关的引擎,也可以通过 DataWorks 做这样的实现,这个就是产品的核心价值。
(1)功能健全
一站式全域数据平台性能卓越,覆盖数据研发全生命周期;日PB级数据同步;日千万级任务调度。
(2)便捷易用
云上全图形化操作界面,图形代码互转,1小时上手大数据全流程研发;阿里数千名运营小二都在用。
(3)降本提效
云原生、全托管,开箱即用,相比自研或使用开源工具,有效降低平台研发和运维成本,让您专注于业务本身,购买开通即可。
(4)安全稳定
租户隔离,细粒度,权限控制,金融级数据安全保障;通过“双11"稳定性考验。
7、DataWorks 合规认证及荣誉奖项
公安部信息安全等保三级认证
中国信通院&数据中心联盟数据集成工具能力评测认证
中国电子技术标准化研究院信息技术大数据系统通用规范认证
中国信通院&数据中心联盟数据管理工具能力评测认证
2017年中国国际软件博览会金奖
2018年中国国际大数据产业博览会"十佳大数据案例”
2018年中国数字化转型与创新评选“最佳大数据产品奖"
入选 The Forrester Wave : Cloud Data Warehouse, Q4 2018报告,领跑Contenders 分组
2019年大数据产业峰会”年度大数据创新产品”