开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.一站式大数据开发治理平台 DataWorks 入门】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1227
1.一站式大数据开发治理平台 DataWorks 入门(三)
四、产品方案及案例
1、离线实时一体化数据仓库解决方案
(1)架构清晰
离线实时一体化数仓,最简单大数据分析架构
(2)性能强大
EB级离线计算,PB级数据亚秒级分析
(3)成本下降
TCO下降30%
企业也可以根据自己的情况单独的选择离线和实时数据仓库的搭建。
根据企业的目前的需求来看,如果现在不需要一体化,也可以单独去构建离线的储藏,比如通过 MaxCompute+DataWorks 或者只需要搭建实时的储藏,通过holo或者实时计算加 DataWorks 构建数据仓库,但是今年的重磅升级都是通过MaxCompute,DataWorks,Hologres实时计算4个产品,就能够非常简单的实现离线实时一体化的数据仓库,因为如果在传统的场景下,要完成一体化的数据仓库,相对而言架构还是比较复杂的,需要利用各种不同的开源组件遇到不同的问题,可能又会组建一个新的租金,会导致整个企业的架构非常的复杂和比较的拥堵,维护也比较困难,那么在阿里云上通过这4个产品就能够实现离线实时一体化的数仓。而且它的整个性能也是非常强大,整体的成本相对而言也是降低了不少,这个是第一个解决方案。
2、数据湖分析解决方案
(1)数据整合
多源数据整合,数据可靠性达99.9999999999%。
(2)弹性伸缩
存储与计算分离,计算弹性伸缩自定义。
(3)加速分析
JindoFS 加速文件系统,高效读取OSS数据。
数据湖存储主要是基于oss和emr,DataWorks 也可以对接oss开源的大数据系统,能够实现整个数据湖分析的一个技术方案,包括EMr里面也有JindoFS加速引擎,能够加速数据湖的分析,最后应用于广告推送,用户行为的不同业务场景。
3、智能推荐解决方案
(1)效果提升
平均模型准确率提升2个点
(2)场景通用
电商/资讯/广告/互娱/直播/社交/音视频等所有互联网推荐业务相关场景
(3)开箱即用
支持全托管/半托管,免运维/轻运维
(4)降本提效
模型训练,模型服务弹性伸缩,速度提升
DataWorks和MaxCompute加pai也能够组成智能推荐的整体解决方案,能够在云上做智能推荐相关的业务,可以让客户平均的模型准确点提升2%个点,比如它原先ctr是8%,通过智能推荐算法的优化帮它提升到10%,对企业的应用价值比较大,有些比较好的能够提升比较高的一个数字。应用,电商资讯各种互联网里面,反正只要跟推荐相关内容都还是比较适合使用的,这个是基于 DataWorks,MaxCompute,pai 做的智能推荐的解决方案。
离线式一体化数据仓库,数据湖,以及只能推荐相关的,这些通用的解决方案可以应用于各行各业不同的一个板块,它没有固定的行业限制。只要有数据平台,或者数据中台建设的需求,都可以使用 DataWorks 以及它下面的大数据计算引擎。
4、宝宝树云上大数据仓库
(1)客户简介
宝宝树成立于2007年,中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,宝宝树很早就建立了自己的IDC集群,而且规模越越大。它里面有很多宝宝的妈妈们,也有一些家长在APP内,做一些母婴或者育儿相关的一些交流。
(2)客户需求
它原先是使用开源的技术体系,集群水位高,性能差,亟待大数据综合治理等问题困扰。
IDC大数据每年投入成本高,关注降本提效。
(3)客户价值
通过 MaxCompute、DataWorks、Hadoop 三个产品实现它整体的大数据仓库的建设。从飞天大数据平台整体上云“降本增效"的方案快速切入,使用智能数仓MaxCompute、实时计算Flink、数据治理平台 DataWorks 后,部分任务有10倍以上的性能提升,存储从自建 Hadoop 3PB 降到900TB,对于用户存储的优化是非常大的,它是内容相关的社区型的产品,这个利用Flink实时数据处理能力,将宝宝树现有的场景实时化(“基于用户ID维度和内容类型的实时行为"“获取用户的实时群聊ID”及“获取文章的实时发布信息" ) ,并且基于Flink进行实时推荐以增加转化率。大数据平台整体成本节省30%以上。
5、快狗打车云上大数据仓库
(1)客户简介
以前是58到家货运的平台,58快狗打车则一直坚持通过“连接网络化”" 运力共享化”“过程数据化"“匹配智能化”等数字信息化解决方案将闲散运力统一整合到平台上,通过大数据将运力精准匹配市场需求,实现运力的节能减排,降低空驶率,有效提升行业运行效率,积极推动绿色物流发展。
(2)客户需求
- 海量数据处理效率下降,离线数据计算时长不稳定。
- 实时计算不开发维护代价大,希望对数仓进行综合治理。
(3)客户价值
它跟宝宝树一样,是一家非常典型的互联网公司,基于飞天大数据平台系列产品,包括 DataWorks ,MaxCompute,实时计算,快狗打车不仅机器成本节约30%以上,数据开发效率提升100%。从 Java Storm 迁移到 Flink SQL 使实时计算开发周期大大减少,维护更加容易,数据一致性得到更好地保障,提升了业务监控大屏的准确性和实时性,用户可以更专注于业务,加速了业务的实时化。同时,阿里云的24小时运维服务保证了集群稳定,实现了零故障。
6、大润发云上数据中台建设
(1)客户简介
为了快速数智化转型,拥抱新零售,大润发计划两年内将IT系统全面迁移到阿里云上,不再自建IDC。同时与阿里,云合作启动数据中台项目,可以帮助大润发降低TCO的同时,更好的依托云上生态,实现数据资产业务化闭环。大润发就是一家非常经典的基于DataWorks产品去构建数据中台的相关的整体的解决方案
(2)客户需求
基于 Hadoop 83开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。
它要做数据转型,有非常多的业务,线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。
(3)客户价值
通过大数据DMA迁移工具,15天完成400TB+历 史数据迁移,同时保证了迁移的准确性,让客户拥有平滑高效的上云体验。基于飞天大数据平台产品DataWorks+MaxCompute大大提高了数据业务的开发效率,构建大润发独有的数据中台体系。它会有数据中台的一些订单率会员率各种各样的,通过这套产品体系是能够非常好的实现,包括阿里集团内部,包括11年做的数据中台也是通过这套体系做实现,那大润发在云上可以基于这套产品做自己的数据中台的体系。它今年重点利用DataWorks进行整体数据中台的建设,它会建设非常多的主题域,比如商品,用户,订单、仓库存储,把这些主题域建好之后,它就能够非常好的满足前台快速迭代的需求。比如今天老板需要有一张报表从来没有做过的,比如大润发里面要做线上物流的监控,因为大润发有APP,在线上下订单,下订单之后它需要在一小时之内去完成的配送,在一小时内有非常多的节点需要去监控,比如5分钟之内要接到订单,多久之内要打包,多长时间骑手需要拿到订单,多少的距离在多少时间内要去配送完成,它需要在整个订单要做实时的,链路监控,它的整个数据中台也能够服务于这样的数据要求,比如它智能推荐相关数据,当它把这个中台做得非常好,非常厚实时,会发现它前台会生长出非常多能够灵活变化的业务,因为它的中台DataWorks做的数据状态非常的厚实,基础的数据建设非常好,所以目前大润发也在云上使用DataWorks的产品构建它独有的数据中台的体系
7、DeNA中国游戏全链路运营
(1)客户简介
DeNA是世界领先的网络服务公司,随着游戏项目的生命周期越越短,项目的各个阶段走向实时、精准的把控,需要构建更经济、更高效的精细化数据运营体系,
(2)客户需求
存在 Hadoop 1.0、2.0两个集群,技术架构复杂,平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈。
日志源渠道多,实时性要求高,基于 fluentd 的文件采集服,随着日志量的增多,性能、稳定性存在明显瓶颈。
“人肉脚本”的数据开发方式,业务支持效率低,且hive计算性能无法满足需求。
(3)客户价值
DeNA中国是游戏行业首家应用闪电立方+DMA迁移工具项目,在无专线等环境下,1个多月就完成10年增量RDS库300TB+历史数据50TB的数据迁移,具备较高的技术复杂度。相较之前客户之前使用的基于python开源的arflow任务管理系统,DataWorks 拥有以下优势:
1.任务管理一目了然,任务出错定位以及即时跳转到相关任务代码修复。
2.数据源一次性管理不需要重复劳动可被多种数据服务需求使用(游戏业务拥有上百个数据源);。
3.整体技术下沉使得资源调度等都不需要自己耗费精力和"额外"的coding,而实现专注于管理开发迁移完成后,飞天大数据平台覆盖数据采集存储&计算>实时/离线分析等游戏数据运营全链路。
4.从它的发行到下载到整个生命周期的结束,需要有数据去实时的监控,比如它在不同渠道投放的数据,能不能非常快速获取到,在渠道投放高,接下来不断的在这个渠道投入更多的力量。比如他在游戏内做日志的采集,有哪些功能是这个客户或者游戏用户会比较喜欢的,要做重点的开发,所有游戏相关的业务都对精细化的实时化的全链路的运营提出了非常大的要求,这个时候通过DataWorks产品来去实现它整个游戏的全链路的数据化的运营,帮助非常大,因为精细化的运营对它来能够更经济更高效的去服务它整个游戏业务的发展,这个是一个游戏客户的案例。
五、产品商业化及总结
1、DataWorks 付费模式
DataWorks 收费模式由产品版本+付费资源组成。
(1)默认开通的是基础版(产品版本) +按量付费(付费资源)。底层有计算引擎MaxCompute,MaxCompute也有资源和存储,好多用户会把付费资源存储和DataWorks 资源搞混,其实两个是不一样的,MaxCompute 主要是满足于大数据的计算和存储的资源,DataWorks 资源主要是用于满足很多的任务,它需要跑起来,比如写了一大段非常强非常复杂的sql,也需要资源来保证任务稳定的运行和调度,所以这两块是不太一样的资源,但是都是可以通过按量付费的形式,不是必须付多少钱,也有些免费的版本可供选择。
(2)在产品版本和后备资源的组成形式上,增值版本分为基础版、标准版、专业版、企业版、旗舰版,专业版,不同的版本主要是功能上使用的区别和差别,推荐专业版首月199元的试用活动,可以用比较低的成本的形式,就能够开通和享用专业版,有非常多的功能。
(3)如果有定制化API需求,会建议开通企业版的版本,可以实现相关的定制化的能力,这个是产品版本。付费资源分为按量付费与独享资源,按量付费就是用多少,花多少钱,比如1~1000个任务是多少钱,1000~1万个任务是多少钱,就是以按量阶梯付费的形式,( 独享调度资源与独享数据集成资源)独享资源首月5折定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组。DataWorks按量付费是大的公共链路,
(4)按量付费提供的是默认资源组,高峰期可能无法保证所有任务准时调度运行。比如遇到618,双11大促,会发现资源还是比较紧张的,可能平时数据要求五点钟六点钟产出,平时是没问题的,一旦在大促或者对某些行业比较特殊的时间节点,会发现这个资源股非常紧张,原先五六点能够产出的任务,它可能要延迟到七八点才能完成,如果造成一定影响,建议大家购买独享资源,独享的资源也会有水位的监控,可以在运维中心里面看到,如果有这样的场景,可以购买首月5折的独享资源组进行尝试,可以体验到不需要去抢占那些公共的资源,可以去比较稳定的去保证自己任务的运行以及定时的产出。目前实时同步相关的功能是必须要通过独享资源组才能够实现,因为里面涉及到非常多的同步的性能以及网络之间的要求,所以如果有这样的场景,也可以购买独享的资源组。
如果要做开源大数据平台建设,可以直接在官网去开通DataWorks加emr组合进行组合的购买。
2、总结
(1)DataWorks 基于 MaxCompute/EMR/MC-Hologres 等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。 每天阿里巴巴集团内部有数万名数据/算法工程师正在使用 DataWorks 承担集团99%数据业务构建。
(2)企业数字化转向的挑战,包括建设数据动态中很多的核心痛点,数据中台本身它并不是一个产品,要通过DataWorks 以及下面的计算引擎可以非常好的帮助客户做整体的数据中台建设。(3)基于这些引擎,介绍 DataWorks 产品的前世今生,包括它从09年第一阶段发展到提出的飞天大数据平台,一个整体的历史的发展阶段以及整个产品的架构,它是一个安全、高效、可靠、专业的一站式的大数据开发与治理平台。
(4)DataWorks 里面各个模块的核心内容,比如数据集成、数据开发、数据治理及数据服务相关的内容。
(5)基于 DataWorks 各种各样的产品方案以及客户案例,整个产品在云上服务了非常多的客户,不仅在集团内部,11年中几乎加入阿里的设计数据相关的,不管分析师还是研发同学,都是通过这套产品做的,包括外面的很多政府零售电力互联网各种各样的企业,对 DataWorks 的应用还是比较多的,如果有相关的应用场景也可以做参考。