1.一站式大数据开发治理平台 DataWorks 入门(三)|学习笔记

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习1.一站式大数据开发治理平台 DataWorks 入门

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:1.一站式大数据开发治理平台 DataWorks 入门】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1227


1.一站式大数据开发治理平台 DataWorks 入门(三)


四、产品方案及案例

1、离线实时一体化数据仓库解决方案

(1)架构清晰

离线实时一体化数仓最简单大数据分析架构

(2)性能强大

EB级离线计算PB级数据亚秒级分析

(3)成本下降

TCO下降30%

企业也可以根据自己的情况单独的选择离线和实时数据仓库的搭建。

根据企业的目前的需求来看,如果现在不需要一体化,也可以单独去构建离线的储藏,比如通过 MaxCompute+DataWorks 或者只需要搭建实时的储藏,通过holo或者实时计算加 DataWorks 构建数据仓库,但是今年的重磅升级都是通过MaxComputeDataWorksHologres实时计算4个产品,就能够非常简单的实现离线实时一体化的数据仓库,因为如果在传统的场景下,要完成体化的数据仓库,相对而言架构还是比较复杂的,需要利用各种不同的开源组件遇到不同的问题,可能又会组建一个新的租金,会导致整个企业的架构非常的复杂和比较的拥堵,维护也比较困难,那么在阿里云上通过这4个产品就能够实现离线实时一体化的数仓而且它的整个性能也是非常强大,整体的成本相对而言也是降低了不少,这个是第一个解决方案。

2、数湖分析解决方案

(1)数据整合

多源数据整合,数据可靠性达99.9999999999%。

(2)弹性伸缩

存储与计算分离计算弹性伸缩自定义。

(3)加速分析

JindoFS 加速文件系统高效读取OSS数据。

数据存储主要是基于oss和emrDataWorks 也可以对接oss开源的大数据系统,能够实现整个数据分析的一个技术方案,包括EMr里面也有JindoFS加速引擎,能够加速数据的分析,最后应用于广告推送用户行为的不同业务场景。

3、智能推荐解决方案

image.png

(1)效果提升

平均模型准确率提升2个点

(2)场景通用

电商/资讯/广告/互娱/直播/社交/音视频等所有互联网推荐业务相关场景

(3)开箱即用

支持全托管/半托管免运维/轻运维

(4)降本提效

模型训练,模型服务弹性伸缩速度提升

DataWorks和MaxComputepai也能够组成智能推荐的整体解决方案,能够在云上做智能推荐相关的业务,可以让客户平均的模型准确点提升2%个点,比如它原先ctr是8%,过智能推荐算法优化帮提升到10%,对企业的应用价值比较大,有比较好的能够提升比较高的一个数字。应用,电商资讯各种互联网里面,反正只要跟推荐相关内容都还是比较适合使用的,这个是基于 DataWorks,MaxComputepai 做的智能推荐的解决方案。

离线式一体化数据仓库数据湖以及只能推荐相关的这些通用的解决方案可以应用于各行各业不同的一个板块,它没有固定的行业限制。只要有数据平台,或者数据中台建设的需求,都可以使用 DataWorks 以及它下面的大数据计算引擎。

4、宝宝树云上大数据仓库

(1)客户简介

宝宝树成立于2007年,中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,宝宝树很早就建立了自己的IDC集群,而且规模越越大。它里面有很多宝宝的妈妈们,也有一些家长在APP内,做一些母婴或者育儿相关的一些交流。

(2)客户需求

原先是使用开源的技术体系,集群水位高,性能差亟待大数据综合治理等问题困扰

IDC大数据每年投入成本高,关注降本提效

(3)客户价值

通过 MaxCompute、DataWorks、Hadoop 三个产品实现它整体的大数据仓库的建设。从飞天大数据平台整体上云“降本增效"的方案快速切入,使用智能数仓MaxCompute、实时计算Flink、数据治理平台 DataWorks 后部分任务有10倍以上的性能提升存储从自建 Hadoop 3PB 降到900TB,对于用户存储的优化是非常大的它是内容相关的社区型的产品,这个利用Flink实时数据处理能力将宝宝树现有的场景实时化(“基于用户ID维度和内容类型的实时行为"“获取用户的实时群聊ID”及“获取文章的实时发布信息" ) ,并且基于Flink进行实时推荐以增加转化率。大数据平台整体成本节省30%以上

5、快狗打车云上大数据仓库

(1)客户简介

以前是58到家货运的平台,58快狗打车则一直坚持通过“连接网络化”" 运力共享化”“过程数据化"“匹配智能化”等数字信息化解决方案将闲散运力统一整合到平台上,通过大数据将运力精准匹配市场需求实现运力的节能减排,降低空驶率有效提升行业运行效率,积极推动绿色物流发展。

(2)客户需求

  1. 海量数据处理效率下降,离线数据计算时长不稳定
  2. 实时计算不开发维护代价大,希望对数仓进行综合治理

(3)客户价值

跟宝宝树一样一家非常典型的互联网公司,基于飞天大数据平台系列产品包括 DataWorks ,MaxCompute,实时计算,快狗打车不仅机器成本节约30%以上,数据开发效率提升100%。从 Java Storm 迁移到 Flink SQL 使实时计算开发周期大大减少,维护更加容易,数据一致性得到更好地保障,提升了业务监控大屏的准确性和实时性,用户可以更专注于业务,加速了业务的实时化。同时,阿里云的24小时运维服务保证了集群稳定,实现了零故障。

6、大润发云上数据中台建设

(1)客户简介

为了快速数智化转型,拥抱新零售,大润发计划两年内将IT系统全面迁移到阿里云上,不再自建IDC。同时与阿里,云合作启动数据中台项目,可以帮助大润发降低TCO的同时,更好的依托云上生态,实现数据资产业务化闭环。大润发就是一家非常经典的基于DataWorks产品去构建数据中台的相关的整体的解决方案

(2)客户需求

基于 Hadoop 83开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。

它要做数据转型,有非常多的业务,线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。

(3)客户价值

通过大数据DMA迁移工具,15天完成400TB+历 史数据迁移,同时保证了迁移的准确性,让客户拥有平滑高效的上云体验。基于飞天大数据平台产品DataWorks+MaxCompute大大提高了数据业务的开发效率,构建大润发独有的数据中台体系。会有数据中台的一些订单率会员率各种各样的,通过这套产品体系是能够非常好的实现,包括阿里集团内部,包括11年做的数据中台也是通过这套体系做实现,那大润发在云上可以基于这套产品做自己的数据中台的体系。今年重点利用DataWorks进行整体数据中台的建设,它会建设非常多的主题域,比如商品,用户,订单、仓库存储,把这些主题域建好之后,它就能够非常好的满足前台快速迭代的需求。比如今天老板需要有一张报表从来没有做过的,比如大润发里面要做线上物流监控,因为大润发有APP,在线上下订单,下订单之后它需要在小时之内去完成的配送,在小时内有非常多的节点需要去监控,比如5分钟之内要接到订单,多久之内要打包,多长时间骑手需要拿到订单,多少的距离在多少时间内要去配送完成,它需在整个订单要做实时的,链路监控,它的整个数据中台也能够服务于这样的数据要求比如它智能推荐相关数据当它把这个中台做得非常好,非常厚实时,会发现它前台会生长出非常多能够灵活变化的业务,因为它的中台DataWorks做的数据状态非常的厚实,基础的数据建设非常好,所以目前大润发也在云上使用DataWorks的产品构建它独有的数据中台的体系

7、DeNA中国游戏全链路运营

(1)客户简介

DeNA是世界领先的网络服务公司,随着游戏项目的生命周期越越短,项目的各个阶段走向实时、精准的把控,需要构建更经济、更高效的精细化数据运营体系,

(2)客户需求

存在 Hadoop 1.0、2.0两个集群,技术架构复杂,平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈

日志源渠道多,实时性要求高,基于 fluentd 的文件采集服,随着日志量的增多,性能、稳定性存在明显瓶颈

“人肉脚本”的数据开发方式,业务支持效率低,且hive计算性能无法满足需求

(3)客户价值

DeNA中国是游戏行业首家应用闪电立方+DMA迁移工具项目,在无专线等环境下,1个多月就完成10年增量RDS库300TB+历史数据50TB的数据迁移,具备较高的技术复杂度。相较之前客户之前使用的基于python开源的arflow任务管理系统,DataWorks 拥有以下优势:

1.任务管理一目了然,任务出错定位以及即时跳转到相关任务代码修复

2.数据源一次性管理不需要重复劳动可被多种数据服务需求使用(游戏业务拥有上百个数据源);

3.整体技术下沉使得资源调度等都不需要自己耗费精力和"额外"的coding而实现专注于管理开发迁移完成后,飞天大数据平台覆盖数据采集存储&计算>实时/离线分析等游戏数据运营全链路。

4.从它的发行到下载到整个生命周期的结束,需要有数据去实时的监控,比如它在不同渠道投放的数据,能不能非常快速获取到,在渠道投放高,接下来不断的在这个渠道投入更多的力量。比如他在游戏内做日志的采集,有哪些功能是这个客户或者游戏用户会比较喜欢的,要做重点的开发,所有游戏相关的业务都对精细化的实时化的全链路的运营提出了非常大的要求,这个时候通过DataWorks产品来去实现它整个游戏的全链路的数据化的运营,帮助非常大,因为精细化的运营对它来能够更经济更高效的去服务它整个游戏业务的发展,这个是一个游戏客户的案例。


五、产品商业化及总结

1、DataWorks 付费模式

DataWorks 收费模式由产品版本+付费资源组成

(1)默认开通的是基础版(产品版本) +按量付费(付费资源)。底层有计算引擎MaxCompute,MaxCompute也有资源和存储好多用户会把付费资源存储和DataWorks 资源搞混其实两个是不一样的MaxCompute 主要是满足于大数据的计算和存储的资源DataWorks 资源主要是用于满足很多的任务它需要跑起来比如写了一大段非常强非常复杂的sql也需要资源来保证任务稳定的运行和调度,所以这两块是不太一样的资源,但是都是可以通过按量付费的形式,不是必须付多少钱,也有些免费的版本可供选择。

(2)在产品版本和后备资源的组成形式上,增值版本分为基础版、标准版、专业版、企业版、旗舰版专业版,不同的版本主要是功能上使用的区别和差别,推荐专业版首月199元的试用活动,可以用比较低的成本的形式就能够开通和享用专业版有非常多的功能

(3)如果有定制化API需求,会建议开通企业版的版本,可以实现相关的定制化的能力,这个是产品版本。付费资源分为按量付费与独享资源,按量付费就是用多少花多少钱比如1~1000个任务是多少钱,1000~1万个任务是多少钱,就是以按量阶梯付费的形式,( 独享调度资源与独享数据集成资源)独享资源首月5折定时产出报表,定时大量数据同步,实时同步等场景建议购买独享资源组DataWorks按量付费是大的公共链路

(4)按量付费提供的是默认资源组,高峰期可能无法保证所有任务准时调度运行比如遇到618,双11大促,会发现资源还是比较紧张的,可能平时数据要求五点钟六点钟产出,平时是没问题的,一旦在大或者对某些行业比较特殊的时间节点,会发现这个资源股非常紧张,原先五六点能够产出的任务,它可能要延迟到七八点才能完成如果造成定影响,建议大家购买独享资源,独享的资源也会有水位的监控,可以在运维中心里面看到,如果有这样的场景,可以购买首月5折的独享资源组进行尝试,可以体验到不需要去抢占那些公共的资源,可以去比较稳定的去保证自己任务的运行以及定时的产出。目前实时同步相关的功能是必须要通过独享资源组才能够实现,因为里面涉及到非常多的同步的性能以及网络之间的要求,所以如果有这样的场景,也可以购买独享的资源组。

image.png

如果要做开源大数据平台建设,可以直接在官网去开通DataWorks加emr组合进行组合的购买。

2、总结

(1)DataWorks 基于 MaxCompute/EMR/MC-Hologres 等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。 每天阿里巴巴集团内部有数万名数据/算法工程师正在使用 DataWorks 承担集团99%数据业务构建。

(2)企业数字化转向挑战,包括建设数据动态中很多的核心痛点,数据中台本身它并不是一个产品,要通过DataWorks 以及下面的计算引擎可以非常好的帮助客户做整体的数据中台建设。(3)基于这些引擎,介绍 DataWorks 产品的前世今生,包括从09年第阶段发展到提出的飞天大数据平台,个整体的历史的发展阶段以及整个产品的架构,它是一个安全、高效、可靠、专业的一站式的大数据开发与治理平台。

(4)DataWorks 里面各个模块的核心内容,比如数据集成、数据开发、数据治理及数据服务相关的内容。

(5)基于 DataWorks 各种各样的产品方案以及客户案例整个产品在云上服务了非常多的客户,不仅在集团内部,11年几乎加入阿里的设计数据相关的,不管分析师还是研发同学,都是通过这套产品做的,包括外面的很多政府零售电力互联网各种各样的企业,对 DataWorks 的应用还是比较多的,如果有相关的应用场景也可以做参考。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
5月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(3)
ODPS开发大全:入门篇
202 19
|
5月前
|
SQL 存储 分布式计算
ODPS开发大全:入门篇(1)
ODPS开发大全:入门篇
475 14
|
1月前
|
SQL 人工智能 DataWorks
DataWorks:新一代 Data+AI 数据开发与数据治理平台演进
本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。
238 5
|
2月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
111 1
|
2月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
101 3
|
4月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
464 54
|
3月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
363 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
4月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
587 0
|
5月前
|
SQL 分布式计算 MaxCompute
ODPS开发大全:入门篇(2)
ODPS开发大全:入门篇
123 14

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    109
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    108
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    92
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    93
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    103
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    116
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    151
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    88
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    126