1.一站式大数据开发治理平台 DataWorks 入门(三)|学习笔记

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
实时计算 Flink 版,1000CU*H 3个月
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 快速学习1.一站式大数据开发治理平台 DataWorks 入门

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.一站式大数据开发治理平台 DataWorks 入门】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1227


1.一站式大数据开发治理平台 DataWorks 入门(三)


四、产品方案及案例

1、离线实时一体化数据仓库解决方案

(1)架构清晰

离线实时一体化数仓最简单大数据分析架构

(2)性能强大

EB级离线计算PB级数据亚秒级分析

(3)成本下降

TCO下降30%

企业也可以根据自己的情况单独的选择离线和实时数据仓库的搭建。

根据企业的目前的需求来看,如果现在不需要一体化,也可以单独去构建离线的储藏,比如通过 MaxCompute+DataWorks 或者只需要搭建实时的储藏,通过holo或者实时计算加 DataWorks 构建数据仓库,但是今年的重磅升级都是通过MaxComputeDataWorksHologres实时计算4个产品,就能够非常简单的实现离线实时一体化的数据仓库,因为如果在传统的场景下,要完成体化的数据仓库,相对而言架构还是比较复杂的,需要利用各种不同的开源组件遇到不同的问题,可能又会组建一个新的租金,会导致整个企业的架构非常的复杂和比较的拥堵,维护也比较困难,那么在阿里云上通过这4个产品就能够实现离线实时一体化的数仓而且它的整个性能也是非常强大,整体的成本相对而言也是降低了不少,这个是第一个解决方案。

2、数湖分析解决方案

(1)数据整合

多源数据整合,数据可靠性达99.9999999999%。

(2)弹性伸缩

存储与计算分离计算弹性伸缩自定义。

(3)加速分析

JindoFS 加速文件系统高效读取OSS数据。

数据存储主要是基于oss和emrDataWorks 也可以对接oss开源的大数据系统,能够实现整个数据分析的一个技术方案,包括EMr里面也有JindoFS加速引擎,能够加速数据的分析,最后应用于广告推送用户行为的不同业务场景。

3、智能推荐解决方案

image.png

(1)效果提升

平均模型准确率提升2个点

(2)场景通用

电商/资讯/广告/互娱/直播/社交/音视频等所有互联网推荐业务相关场景

(3)开箱即用

支持全托管/半托管免运维/轻运维

(4)降本提效

模型训练,模型服务弹性伸缩速度提升

DataWorks和MaxComputepai也能够组成智能推荐的整体解决方案,能够在云上做智能推荐相关的业务,可以让客户平均的模型准确点提升2%个点,比如它原先ctr是8%,过智能推荐算法优化帮提升到10%,对企业的应用价值比较大,有比较好的能够提升比较高的一个数字。应用,电商资讯各种互联网里面,反正只要跟推荐相关内容都还是比较适合使用的,这个是基于 DataWorks,MaxComputepai 做的智能推荐的解决方案。

离线式一体化数据仓库数据湖以及只能推荐相关的这些通用的解决方案可以应用于各行各业不同的一个板块,它没有固定的行业限制。只要有数据平台,或者数据中台建设的需求,都可以使用 DataWorks 以及它下面的大数据计算引擎。

4、宝宝树云上大数据仓库

(1)客户简介

宝宝树成立于2007年,中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,宝宝树很早就建立了自己的IDC集群,而且规模越越大。它里面有很多宝宝的妈妈们,也有一些家长在APP内,做一些母婴或者育儿相关的一些交流。

(2)客户需求

原先是使用开源的技术体系,集群水位高,性能差亟待大数据综合治理等问题困扰

IDC大数据每年投入成本高,关注降本提效

(3)客户价值

通过 MaxCompute、DataWorks、Hadoop 三个产品实现它整体的大数据仓库的建设。从飞天大数据平台整体上云“降本增效"的方案快速切入,使用智能数仓MaxCompute、实时计算Flink、数据治理平台 DataWorks 后部分任务有10倍以上的性能提升存储从自建 Hadoop 3PB 降到900TB,对于用户存储的优化是非常大的它是内容相关的社区型的产品,这个利用Flink实时数据处理能力将宝宝树现有的场景实时化(“基于用户ID维度和内容类型的实时行为"“获取用户的实时群聊ID”及“获取文章的实时发布信息" ) ,并且基于Flink进行实时推荐以增加转化率。大数据平台整体成本节省30%以上

5、快狗打车云上大数据仓库

(1)客户简介

以前是58到家货运的平台,58快狗打车则一直坚持通过“连接网络化”" 运力共享化”“过程数据化"“匹配智能化”等数字信息化解决方案将闲散运力统一整合到平台上,通过大数据将运力精准匹配市场需求实现运力的节能减排,降低空驶率有效提升行业运行效率,积极推动绿色物流发展。

(2)客户需求

  1. 海量数据处理效率下降,离线数据计算时长不稳定
  2. 实时计算不开发维护代价大,希望对数仓进行综合治理

(3)客户价值

跟宝宝树一样一家非常典型的互联网公司,基于飞天大数据平台系列产品包括 DataWorks ,MaxCompute,实时计算,快狗打车不仅机器成本节约30%以上,数据开发效率提升100%。从 Java Storm 迁移到 Flink SQL 使实时计算开发周期大大减少,维护更加容易,数据一致性得到更好地保障,提升了业务监控大屏的准确性和实时性,用户可以更专注于业务,加速了业务的实时化。同时,阿里云的24小时运维服务保证了集群稳定,实现了零故障。

6、大润发云上数据中台建设

(1)客户简介

为了快速数智化转型,拥抱新零售,大润发计划两年内将IT系统全面迁移到阿里云上,不再自建IDC。同时与阿里,云合作启动数据中台项目,可以帮助大润发降低TCO的同时,更好的依托云上生态,实现数据资产业务化闭环。大润发就是一家非常经典的基于DataWorks产品去构建数据中台的相关的整体的解决方案

(2)客户需求

基于 Hadoop 83开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。

它要做数据转型,有非常多的业务,线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。

(3)客户价值

通过大数据DMA迁移工具,15天完成400TB+历 史数据迁移,同时保证了迁移的准确性,让客户拥有平滑高效的上云体验。基于飞天大数据平台产品DataWorks+MaxCompute大大提高了数据业务的开发效率,构建大润发独有的数据中台体系。会有数据中台的一些订单率会员率各种各样的,通过这套产品体系是能够非常好的实现,包括阿里集团内部,包括11年做的数据中台也是通过这套体系做实现,那大润发在云上可以基于这套产品做自己的数据中台的体系。今年重点利用DataWorks进行整体数据中台的建设,它会建设非常多的主题域,比如商品,用户,订单、仓库存储,把这些主题域建好之后,它就能够非常好的满足前台快速迭代的需求。比如今天老板需要有一张报表从来没有做过的,比如大润发里面要做线上物流监控,因为大润发有APP,在线上下订单,下订单之后它需要在小时之内去完成的配送,在小时内有非常多的节点需要去监控,比如5分钟之内要接到订单,多久之内要打包,多长时间骑手需要拿到订单,多少的距离在多少时间内要去配送完成,它需在整个订单要做实时的,链路监控,它的整个数据中台也能够服务于这样的数据要求比如它智能推荐相关数据当它把这个中台做得非常好,非常厚实时,会发现它前台会生长出非常多能够灵活变化的业务,因为它的中台DataWorks做的数据状态非常的厚实,基础的数据建设非常好,所以目前大润发也在云上使用DataWorks的产品构建它独有的数据中台的体系

7、DeNA中国游戏全链路运营

(1)客户简介

DeNA是世界领先的网络服务公司,随着游戏项目的生命周期越越短,项目的各个阶段走向实时、精准的把控,需要构建更经济、更高效的精细化数据运营体系,

(2)客户需求

存在 Hadoop 1.0、2.0两个集群,技术架构复杂,平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈

日志源渠道多,实时性要求高,基于 fluentd 的文件采集服,随着日志量的增多,性能、稳定性存在明显瓶颈

“人肉脚本”的数据开发方式,业务支持效率低,且hive计算性能无法满足需求

(3)客户价值

DeNA中国是游戏行业首家应用闪电立方+DMA迁移工具项目,在无专线等环境下,1个多月就完成10年增量RDS库300TB+历史数据50TB的数据迁移,具备较高的技术复杂度。相较之前客户之前使用的基于python开源的arflow任务管理系统,DataWorks 拥有以下优势:

1.任务管理一目了然,任务出错定位以及即时跳转到相关任务代码修复

2.数据源一次性管理不需要重复劳动可被多种数据服务需求使用(游戏业务拥有上百个数据源);

3.整体技术下沉使得资源调度等都不需要自己耗费精力和"额外"的coding而实现专注于管理开发迁移完成后,飞天大数据平台覆盖数据采集存储&计算>实时/离线分析等游戏数据运营全链路。

4.从它的发行到下载到整个生命周期的结束,需要有数据去实时的监控,比如它在不同渠道投放的数据,能不能非常快速获取到,在渠道投放高,接下来不断的在这个渠道投入更多的力量。比如他在游戏内做日志的采集,有哪些功能是这个客户或者游戏用户会比较喜欢的,要做重点的开发,所有游戏相关的业务都对精细化的实时化的全链路的运营提出了非常大的要求,这个时候通过DataWorks产品来去实现它整个游戏的全链路的数据化的运营,帮助非常大,因为精细化的运营对它来能够更经济更高效的去服务它整个游戏业务的发展,这个是一个游戏客户的案例。


五、产品商业化及总结

1、DataWorks 付费模式

DataWorks 收费模式由产品版本+付费资源组成

(1)默认开通的是基础版(产品版本) +按量付费(付费资源)。底层有计算引擎MaxCompute,MaxCompute也有资源和存储好多用户会把付费资源存储和DataWorks 资源搞混其实两个是不一样的MaxCompute 主要是满足于大数据的计算和存储的资源DataWorks 资源主要是用于满足很多的任务它需要跑起来比如写了一大段非常强非常复杂的sql也需要资源来保证任务稳定的运行和调度,所以这两块是不太一样的资源,但是都是可以通过按量付费的形式,不是必须付多少钱,也有些免费的版本可供选择。

(2)在产品版本和后备资源的组成形式上,增值版本分为基础版、标准版、专业版、企业版、旗舰版专业版,不同的版本主要是功能上使用的区别和差别,推荐专业版首月199元的试用活动,可以用比较低的成本的形式就能够开通和享用专业版有非常多的功能

(3)如果有定制化API需求,会建议开通企业版的版本,可以实现相关的定制化的能力,这个是产品版本。付费资源分为按量付费与独享资源,按量付费就是用多少花多少钱比如1~1000个任务是多少钱,1000~1万个任务是多少钱,就是以按量阶梯付费的形式,( 独享调度资源与独享数据集成资源)独享资源首月5折定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组DataWorks按量付费是大的公共链路

(4)按量付费提供的是默认资源组,高峰期可能无法保证所有任务准时调度运行比如遇到618,双11大促,会发现资源还是比较紧张的,可能平时数据要求五点钟六点钟产出,平时是没问题的,一旦在大或者对某些行业比较特殊的时间节点,会发现这个资源股非常紧张,原先五六点能够产出的任务,它可能要延迟到七八点才能完成如果造成定影响,建议大家购买独享资源,独享的资源也会有水位的监控,可以在运维中心里面看到,如果有这样的场景,可以购买首月5折的独享资源组进行尝试,可以体验到不需要去抢占那些公共的资源,可以去比较稳定的去保证自己任务的运行以及定时的产出。目前实时同步相关的功能是必须要通过独享资源组才能够实现,因为里面涉及到非常多的同步的性能以及网络之间的要求,所以如果有这样的场景,也可以购买独享的资源组。

image.png

如果要做开源大数据平台建设,可以直接在官网去开通DataWorks加emr组合进行组合的购买。

2、总结

(1)DataWorks 基于 MaxCompute/EMR/MC-Hologres 等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。 每天阿里巴巴集团内部有数万名数据/算法工程师正在使用 DataWorks 承担集团99%数据业务构建。

(2)企业数字化转向挑战,包括建设数据动态中很多的核心痛点,数据中台本身它并不是一个产品,要通过DataWorks 以及下面的计算引擎可以非常好的帮助客户做整体的数据中台建设。(3)基于这些引擎,介绍 DataWorks 产品的前世今生,包括从09年第阶段发展到提出的飞天大数据平台,个整体的历史的发展阶段以及整个产品的架构,它是一个安全、高效、可靠、专业的一站式的大数据开发与治理平台。

(4)DataWorks 里面各个模块的核心内容,比如数据集成、数据开发、数据治理及数据服务相关的内容。

(5)基于 DataWorks 各种各样的产品方案以及客户案例整个产品在云上服务了非常多的客户,不仅在集团内部,11年几乎加入阿里的设计数据相关的,不管分析师还是研发同学,都是通过这套产品做的,包括外面的很多政府零售电力互联网各种各样的企业,对 DataWorks 的应用还是比较多的,如果有相关的应用场景也可以做参考。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
2月前
|
数据采集 运维 DataWorks
DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破
智能驾驶数据预处理面临数据孤岛、任务爆炸与开发运维一体化三大挑战。DataWorks提供一站式的解决方案,支持千万级任务调度、多源数据集成及全链路数据开发,助力智能驾驶模型数据处理与模型训练高效落地。
|
2月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。
|
1月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
2月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
96 1
|
5月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
135 6
|
7月前
|
人工智能 自然语言处理 DataWorks
DataWorks X DeepSeek : 用AI实现数据开发治理!
DataWorks X DeepSeek : 用AI实现数据开发治理!
272 3
|
7月前
|
人工智能 自然语言处理 DataWorks
DataWorks X DeepSeek : 用AI实现数据开发治理!
阿里云DataWorks正式接入DeepSeek-R1系列模型,用户可通过DataWorks Copilot智能助手,以自然语言交互完成代码操作,实现数据开发、分析与治理全流程。DataWorks内置阿里巴巴16年大数据建设方法论,支持多种大数据引擎和AI计算服务,助力“Data+AI”全生命周期管理。开通DataWorks后即可免费体验DataWorks Copilot。
|
8月前
|
SQL DataWorks 监控
Dataworks入门
很久前试用DataWorks,初版功能完善,通过提工单解决问题并学会日志分析。Copilot接入后,发现其SQL功能未严格遵循阿里云官方文档,修改的SQL不尽如人意,有待提升。整体而言,DataWorks功能强大、可定制化高、集成方便,在大数据处理方面表现出色。
190 13
|
8月前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
366 1
|
9月前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。

热门文章

最新文章