开发者学堂课程【一站式大数据开发治理平台 DataWorks 初级课程:一站式大数据开发治理平台 DatatWorks 入门】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/763/detail/13354
一站式大数据开发治理平台 DatatWorks 入门
内容介绍
一、课堂内容介绍
二、企业数字化转型的挑战
三、DatatWorks 前世今生
四、DatatWorks 产品核心能力
五、产品方案及案例
六、产品商业化及总结
一、课堂内容介绍
本节课主要内容为对产品进行基础的了解,后面会有不同的产品经理分享不同模块的内容。
本节课分为五大模块,第一块主要讲解企业数字化建设中主要面临的挑战与困难,第二块是介绍发展了11年的 DatatWorks 的前世今生到底有一些怎样的故事,第三块介绍 DatatWorks 的核心能力,包括 DatatWorks 的模块,第四块讲解基于 DatatWorks 的产品解决方案和案例,最后一块进行产品商业化以及所有课堂内容的总结。
二、企业数字化转型的挑战
(1)数据中台
目前所处在 DI 时代,进入一个数据智能的时代,阿里巴巴提出的数据中台的概念。
很多企业将数据中台的理念作为数据化转型的基础设施
通过数据中台实现数据的全域汇聚,数据的加工,数据的治理以及数据的共享开放。注意数据中台不是一个具体的产品,但是可以通过下属的计算引擎发非常好的完成数据中台的建设,包括往下分享的阿里巴巴数据中台建设的实例和经验。
(2)企业/政府数据中台建设面临的核心痛点
1.数据孤岛:非常多的数据系统,把数据分散在各个不同的角落,导致数据重复的计算、存储,数据无法做有效的连接
2.数据开发运维的成本开发高:选用开运的业务体系,如果要满足企业增长性,稳定性,投入企业成本高
3.数据共享应用不易:根据阿里巴巴多年的工作总结,数据共享的核心问题为安全问题,阿里报表沉淀的经验可以保证在满足企业数据安全性的前提下非常好的满足数据的共享与应用
4.大规模数据难以治理:随着数据中台的建立,数据不断地从不同地方汇聚,导致数据中台的数据爆炸式的增长,如何保证数据的质量,监控,安全。
逐渐成为企业或政府建立数据中台面临的一个核心问题
三、DatatWorks 前世今生
(1)DatatWorks 定义与功能
DatatWorks 本身不做大数据的计算和存储,基于
MaxCompute/EMR/MC-Hologres 等大数据计算引擎,为客户提供安全高效的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理的最佳实践,赋能个行业数据化转型
如图:
通过上图底层灰色部分为数据计算引擎,会实现全域的数据基层,全域的数据中心,元数据的调度,数据开发,数据治理的架构逻辑。
(2)阿里巴巴十一年数据中台建设黄金搭档
黄金搭档为 DatatWorks 与计算引擎 MaxCompute
基于飞天大数据平台和飞天 AI 平台,企业内部芝麻信用等各个的数据应用,包括集团的数据业务,比如各个板块:钉钉淘宝等,所有的内容,数据的应用,都是通过MaxCompute 计算引擎与一站式大数据开发与治理平台 DatatWorks 进行支撑
2019年双十一最新数据,DatatWork 支撑千万级日调度,MaxCompute 计算引擎处理982pb 的数据
(3)飞天大数据平台:阿里巴巴十一年大数据&AI 最佳实践
通过时间轴进行讲解 DatatWorks 的发展历史
最开始2009年产品开始,王院士在央视节目朗读者节目中,提出空气进入稀薄地带,在争议中写下飞天第一行代码
15年,在平台取得一定成绩时,启动登月计划,将所有的计算存储放入MaxCompute,将全部任务的调度与开发放入 DatatWorks
2016年和2018年通过阿里云进行全球商业化的输出,去赋能各行各业,普惠大数据相关的内容
2019年真正将大数据的整个内容通过数据的AI实践到飞天的大数据平台上,包括自研的计算引擎 MaxCompute,拥有最大规模,数据处理能力最强的计算引擎,以及自带DatatWorks 阿里巴巴最佳数据实践,另外包含多个图计算等计算引擎在飞天大数据平台当中,并且与AI的其他平台互为补充,形成双生系统,帮助企业更好的去落地大数据 AI 的最佳实践
(4)DatatWorks 飞天大数据平台操作系统
DatatWorks 作为飞天数据平台的操作系统,各种数据存储底层的各种计算引擎中,但必须存在一站式图形化的数据系统,才能使各种引擎高效运行
如同一个硬盘存储大量数据,但没有一个操作系统对硬盘进行普通结构管理,数据的查询等,总体而言效率则较低
DatatWorks 加大数据计算引擎,可以赋能各国行业的数据化智能智能应用,是DatatWorks 在整个飞天大数据平台的定位
(5)DatatWorks 产品架构
通过架构图进行描述
底层为大数据计算引擎
数据集成步骤,通过全域的数据集成来支撑批量、增量、实时的各种各样的数据同步将数据导入计算引擎当中。
然后进行统一的源数据,统一的任务调度,起到承上启下的作用
在数据开发,存在不同的 studio,离线的 studio、实时的 studio、交互式分析的studio。
基于数据开发还可进行数据治理的内容,以及统一的数据服务,对外的共享。
最后 OPen API 为今年下半年重磅发布的一个开放平台,企业可以基于 API 系统来进行定制化需求的实现。
(6)DatatWorks 产品核心价值
DatatWorks 与 MaxCompute 是阿里巴巴自身大数据建设的最佳结晶,只需要在云上通过云延伸的形式,开户即可拥有。
如下:DatatWorks 获得的相关荣誉
四、DatatWorks 产品核心能力
(1)DatatWorks 的数据集成
如果在云上实现大数据,第一步将数据同步到云上,数据集成几乎是所有企业实现云上的第一步,DatatWorks 的数据集成支持实时同步、离线同步、整库迁移,整库迁移:可以把线下 MYcal 数据库批量的同步到云上,以便提高数据上云效率。支持很多的数据源,如:宏观数据,大数据存储等包括实时同步相关的功能也可以支持。
对于所有企业来说最为核心的是针对大数据上游核心网络问题
DatatWorks 可以很好的提供数据源,包括同步速度的设置,完成上游与下游的数据体验
(2)DatatWorks 全链路数据开发平台
通过架构图进行分析 DatatWorks 的全链路开发平台,如 DatatWorks 针对不同的计算引擎实施不同的 studio,比如:离线的 studio、实时的 studio、交互式分析的studio。
通过不同的 studio 数据服务后,DatatWorks 通过共享等形式,给大屏,报表,表格等做数据的支撑。
进行讲解1.DatatWorks 离线数据开发--Data studio
Data studio 支持阿里云的 MaxCompute 和 E-MapReduce 两大数据引擎的的离线数仓开发,基于这些引擎可构建比较复杂的数据业务流程和调度依赖,提供开发、生产环境隔离的研发模式,构建多引擎的混合编排,比如:DatatWorks 离线数据开发不仅仅支持跨引擎的调度依赖,还支持跨云等调度依赖.
如:在非常极端的影响下,多个不同地域的节点均可串联到一起完成混合的编排。一个上海,北京,日本,深圳的节点都可以都过强大的离线开发能力将不同地域的节点进行串联。
2.DatatWorks 实施数据开发--stream studio
stream studio 基于阿里云实时计算引擎(Flink)构建,通过可视化拖拉拽实现实时任务。
如图 DAG 开发模式:
3. DatatWorks 的交互式分析
MaxCompute 的交互式分析是一款兼容 PostgoreSQL 协议的实时交互式分析产品,其功能可以实现 PB 级数据亚秒级查询相应。
高性能的写入,写入即可查,写入即可查而不是通过离线数据进行创建,对MaxCompute 的很多用户来说,可以支持 MaxCompute 的查询加速,通过 Hologres可以做 MaxCompute 的直接查询。
4. 机器学习 PAI
机器学习 PAI 提供学习的开发平台,可在阿里云官网进行详细学习。
5. DatatWorks 任务调度
提供千万级的大规模周期性任务调度服务,支持分钟、小时、天、月、周等周期的任务调度、同时还会支持顺序、循环、分支等流程判断
可使得流程图具有更高的可读性和可解释性.
如图仅在一个任务中将所有程序嵌套,另一个人可能很难理解,需要花费大量的时间和经历,若通过顺序、循环、分支的逻辑进行拆分的话,则会让他人面对该程序具有很好的可读性,使得工作效率提高
6. DatatWorks 的运维中心
DatatWorks 的运维通过可视化的形式,一个人就可以管理和调度成百上千个任务支持周期性和触发式的运维。
通过移动运维,在钉钉上通过小程序即可进行任务的报警和运维处理。
(3)基于 DatatWorks 的数据治理体系
1.基于 DatatWorks 的数据治理体系,能够实现整个数据的应用
2.组织设计 数据规范小组,质量小组,稳定性小组,数据安全小组
3.制度设计 在帮助文档中可观看关于数据仓库研发规范,模型以及质量保障的规范,能够帮助大家在制度设计上的保障
4.DatatWorks 的数据平台核心要素
首先第一步做到数据的发现
不管是 MaxCompute、通过元数据自动解析的形式,解析数据,当数据形成可解释的时候可形成整张的数据资产地图,基于数据资产地图提供围绕数据治理展开的功能。如数据安全:存在许多敏感数据如身份证等,告知身份证这个数段在某个时间段进行了查询,针对敏感数据的识别,实现敏感数据不可见但可用。
数据质量:存储数据质量的检测,针对产生的脏数据进行处理,
数据监控:针对海量数据会产生大量的树状图,产生不同的分支,海量计算任务监控与基线预警
如十点产出的任务,十点才产生,今天设计一个智能监控,便可自动做出任务的检测,如十点产出的任务,十点才产生,可能会导致数据的延迟影响12点的任务,即可将该情况上报,分析并解决问题保证数据的稳定产出。
资源优化:当数据越来越多的时候,存储、计算资源的优化便十分关键。
如:产生一万张表会产生重复数据,资源优化针对重复数据进行处理
或创建计算程序,发现与他人重合,此时资源是浪费的,便可以将该情况上报管理员,通过资源优化识别,进行删选,节省资源。
5. DatatWorks 的数据服务
数据服务是解决从数仓到应用的最后一公里,通过数据服务的形式实现零代码的数据应用,如大屏,报表等。所以说数据服务是从数仓到应用的最后一公里。
五、产品方案及案例
(1)离线实时一体化数据仓库解决方案
在传统上离线实时一体化数据仓库构建复杂而在阿里云可通过 MaxCompute、DatatWorks、MC-Hologres、Realtime compute 四个产品实现离线实时一体化数据仓库构建。功能强大的同时成本下降
(2)数据湖分析解决
数据湖存储基于 OSS 和 EMR,可以对接 DatatWorks 与OSS 开元大数据系统,能够实现整个数据湖分析的解决方案,包括EMR存在很好的加速引擎加速数据湖分析,应对广告推送等不同的业务场景
(3)智能推荐解决方案
由 DatatWorks 与机器学习 PAI 构成整体智能推荐系统,可提高平均模型准确率提升2个点
应用多个场景如:电商等
(4)宝宝树云上大数据仓库
是中国最大育婴平台之一
通过阿里云 DatatWorks 和 MaxCompute,实现整个大数据仓库的存储
基于实时化的能力,实现智能推荐等能力
对于任务提升效率和降低存储成本
通过阿里云,解决宝宝树的业务相关需求
(5)快手打车云上大数据仓库
基于飞天大数据平台,提升数据开发效率和减低数据存储效率
相对而言对于自建的数据降低了成本,提高了数据开发效率
(6)大润发云上数据中台建设
一家典型型零售企业,基于DatatWorks 产品进行整体数据中台的建设,数据速度历史迁移仅用十五天,目前已基本完工。
利用 DatatWorks 产品进行整体数据中台的建设,建设主体域,满足多个领域的应用 如报表或订单的监控,打包时间到配送完成一个订单的完成
当中台建设厚实,十分立于前台操作的应用
(7)DeNA 中国游戏全链路运营
做为全球的游戏运行公司,主要负责中国区域的构建,较高的淘汰率
较高的成本,需要数据运行的高效,对于渠道的监控和游戏内日志的采集需求
通过 DatatWorks 产品进行全链路运营,能够更经济更高效的去服务游戏的发展
六、产品商业化及总结
(1)DatatWorks 的付费模式
DatatWorks 的付费模式由产品版本和付费资源组成,产品版本类似于高级版,基础班等,付费资源如任务的调度数据的集成需要资源实现。
与计算引擎 MaxCompute 的资源不同,MaxCompute 的资源主要是满足计算与存储而 DatatWorks 的资源则是为了保证任务的调度等。
同时存在免费版本,产品版本和付费资源组成,版本存在五种形式,基础,标准,专业,企业,旗舰,针对客户,推荐专业版首月199元模式。
如果有一些定制化需求,建议开通旗舰版,付费资源分为按量收费与独享资源,按量收费,及根据任务量的多少收取费用,以阶梯收费的形式,独享资源,如果在特殊时期如618、双十一等资源紧张情况下,建议购买独享资源,首月独享资源组,数月200元,实时同步的资源必须通过独享资源组完成,支持如下组合购买,针对不同的需求
(2)总结
数据中台不是一个具体的产品,结合多项工具,可以非常好的满足客户的需求。通过介绍 DatatWorks 的前世今生和飞天大数据平台的建设,整个产品的架构,是一个安全高效,一站式的数据平台。
接下数据开发,治理的相关内容和相关案例的介绍,阿里巴巴十几年来的经验总结,最后介绍了商品开通与付费的相关内容。