成本最高可降40%!揭秘DataWorks资源组的Serverless进化之路

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 阿里云DataWorks为数据仓库/数据湖/湖仓一体等解决方案提供智能一站式开发治理平台能力。其中在资源组Serverless化方面,DataWorks实现了重大突破,不仅提高了资源利用率与灵活性,还降低了成本。DataWorks通过升级资源组管理模式,解决了传统资源组存在的复杂计费、资源利用率低等问题。Serverless资源组实现了资源的自动管理和分配,确保任务调度效率,并通过统一资源配额管理实现资源的高效利用和平滑扩缩。此外,容器运行时技术保障了数据和任务的安全隔离。Serverless资源组具备通用性强、付费形式灵活、支持运行中扩缩容等优势,有效提升了用户体验与安全性。

导读

在当今数据驱动的时代,高效、灵活地处理和分析海量数据成为企业数字化转型的关键。阿里云智能湖仓一体大数据开发治理平台DataWorks具备强大的数据建模、数据集成、数据开发、数据分析和数据治理等功能,为企业提供了从数据接入到价值洞察的全链路解决方案,并不断在大数据开发治理领域推陈出新。其中,资源组的Serverless化,则标志着DataWorks在用户使用灵活度与成本效率提升到了新的高度,是DataWorks架构的重要演进。本文将深入揭秘DataWorks资源组的Serverless进化之路,探讨这一转变背后的技术逻辑、带来的变革以及对用户和行业的影响。


一、Serverless:云计算的新篇章

广义定义:Serverless强调的是一种架构理念和服务模型,所谓的“无服务器”并不是“没有服务器”,而指构建和运行不需要服务器管理的应用程序概念。它描述了一种更细粒度的部署模型,其中将应用程序打包为一个或多个功能,上传到平台,然后执行、扩展和计费,以响应当时确切的需求。

—— CNCF WG-Serverless Whitepaper v1.0

Serverless架构这种新的模式,意味着开发者可以更加专注于业务逻辑,而非基础设施的运维,从而极大地提高了开发效率和资源利用率。在费用方面,Serverless通常采用按需付费模式,仅在代码实际运行时计费,进一步降低了成本。


二、DataWorks资源组的挑战与战略选择

DataWorks资源组属于DataWorks的基础服务,是管理和隔离计算资源的逻辑单位,为DataWorks上的各个功能模块如数据开发、数据集成和数据调度等提供计算资源,资源组的状态将影响到相关功能的稳定运行,资源组的调度,将影响任务或服务运行的效率。

旧版资源组根据支持的功能模块不同分为不同的类型,涉及公共数据集成资源组、公共调度资源组、独享数据集成资源组、独享调度资源组、独享数据服务资源组五类,对用户来说计费逻辑复杂,购买管理不统一,使用过程中学习成本较高体验较差,同时资源预分配模式导致资源利用率低、弹性伸缩能力有限、以及运维成本较高,用户需要根据预测的工作负载手动配置和调整资源,这不仅增加了资源规划的难度,也难以应对突发流量或作业的快速变化,影响了整体的处理效率和响应速度。

面对这些挑战,DataWorks团队开始探索如何将Serverless的理念融合到资源组的管理中,依托于ASI统一资源调度架构,全面升级DataWorks的资源调度模型,旨在为用户提供一个灵活经济、安全高效的使用体验。

                                                image.png


三、资源组Serverless化的转型之旅


数据调度完全Serverless化带来使用和付费方式转变


资源组转为采用Serverless的架构,调度任务完全Serverless化后能够根据实际需求自动管理和分配计算资源,用户无需根据任务波动预先或临时调整资源的大小,平台能够根据任务负载动态调整资源,从而大幅降低空闲时间和资源浪费,将成本节省直接回馈给用户。Serverless架构也带来了付费方式的转变,用户只需按实际使用的计算量付费,很大程度上无需预估或预留资源,极大地简化了成本管理和优化过程,单个场景计费案例下成本最高可减少40%。

                                image.png


任务类型完全区分驱动调度效率和使用体验提升


将调度型任务和计算型任务完全区分开来,解决计算任务带来的资源消耗影响调度任务的资源问题,这种方式使得任务调度能力获得进一步的提升,相比原先公共资源组最大任务并发数提升了4倍。完全解决了数据集成任务调度和计算资源冲突问题,平台通过异步链路模式,彻底屏蔽集成任务调度资源损耗,提升客户使用体验。


统一资源配额Quota管理实现资源平滑扩缩和高效利用


当业务波动时需要进行资源扩缩容,原有基于ECS架构下,由于需要对涉及到的物理或虚拟机实例进行手动配置,导致可能会遇到服务中断或性能波动的问题。为了解决这一问题,升级到Serverless架构后,通过Quota(资源配额)管理来控制资源使用,可以在不影响现有业务运行的情况下实现无缝的资源扩缩。同时这种机制下,扩缩容操作对用户是透明且无感的,能够极大程度的确保服务的连续性和稳定性。

同时,原有ECS架构下,会出现受限于单个ECS节点的资源上限和碎片化问题。Serverless架构下通过统一资源配额Quota管理的方式,实现对资源进行更精细化的管理,可以精确到每个任务级别的资源分配:

  • 最小任务资源管理为0.25vCPU的资源使用,相比原先最小4Core8G作为起始计算资源售卖,用户可以更加的充分灵活使用资源,资源利用更加高效;
  • 避免了因ECS规格的单点资源限制导致的任务调度瓶颈或阻塞,同时也提高了整体系统的响应能力和资源利用率


容器运行时技术保障安全隔离


在Serverless架构下,如何保障数据和任务的安全隔离是不可避免要面临的问题。DataWorks通过采用如runD这样的容器运行时技术,使得每个任务都在独立的执行环境中运行,实现了资源、网络和环境的隔离。这种情况下,即使在同一租户内,不同任务间也无法互相干扰,减少了潜在的安全风险和数据泄露的可能性,相对于原有单租户内节点资源共享的资源组模型,安全性获得显著提升。这种任务级别的隔离机制是云原生安全实践的重要组成部分,为敏感应用和数据提供了更强的保护屏障。


                                        image.png


四、Serverless资源组的核心优势

  • 通用型:不区分用途,DataWorks任何能力都可以使用
  • 付费形式灵活:支持按量、包年包月两种付费形式,其中可购买资源抵扣包抵扣按量计费
  • 支持运行中扩缩容(即将上线):扩缩容时不影响已有任务的运行
  • 支持扩缩容定时计划(即将上线):可根据业务运行规律,设置扩缩容计划,定时扩缩容,保障业务运行的同时最大限度减小开销
  • 按需使用无浪费:用多少买多少,避免无效的资源限制,最小购买粒度为1CU
  • 高隔离性安全保障:属于用户的独享资源,网络控制也完全由用户做主,提升了安全性和隔离性


                                  image.png


五、Serverless资源组的快速使用与旧版迁移

目前Serverless资源组已经上线各大Region,用户可登陆DataWorks控制台在资源组列表的独享资源组页签下进行创建和使用,详细指导步骤可参见新增和使用Serverless资源组如果用户已使用DataWorks的旧版资源组,并计划切换为Serverless资源组,可在切换前评估各项已有任务的资源消耗情况,然后切换到足够承载所有任务的Serverless资源组。为了能够平滑迁移,可参考不同任务所需CU的评估示例、切换前后可能的影响以及从旧版资源组切换到Serverless资源组的操作指导来进行操作。

在此,DataWorks推出300CU*H额度的资源抵扣包,DataWorks新用户可首月免费试用,抵扣按量付费的资源组使用,欢迎体验。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
3月前
|
数据采集 运维 DataWorks
DataWorks产品使用合集之Serverless资源组与旧版资源组对比有什么区别
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之公共集成资源组如何切换独享资源
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
SQL DataWorks 关系型数据库
DataWorks操作报错合集之离线同步任务时,如何解决资源组报错:errormessage:Render instance failed
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
DataWorks 安全 测试技术
DataWorks产品使用合集之调用starrock的测试环境和生产环境是否需要两个资源组
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 关系型数据库 API
DataWorks产品使用合集之在配置独享调度资源组的环境变量时,如何通过环境变量的方式进行配置
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之资源组切换后仍然报错,并且提示了新的IP地址172.25.0.67,该如何排查
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
DataWorks Shell Python
DataWorks如何将shell任务运行在自定义资源组上
本文主要讲述,如何在DataWorks上如何将shell任务运行在自定义资源组上。
2876 0
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

相关产品

  • 大数据开发治理平台 DataWorks