成本最高可降40%!揭秘DataWorks资源组的Serverless进化之路

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 阿里云DataWorks为数据仓库/数据湖/湖仓一体等解决方案提供智能一站式开发治理平台能力。其中在资源组Serverless化方面,DataWorks实现了重大突破,不仅提高了资源利用率与灵活性,还降低了成本。DataWorks通过升级资源组管理模式,解决了传统资源组存在的复杂计费、资源利用率低等问题。Serverless资源组实现了资源的自动管理和分配,确保任务调度效率,并通过统一资源配额管理实现资源的高效利用和平滑扩缩。此外,容器运行时技术保障了数据和任务的安全隔离。Serverless资源组具备通用性强、付费形式灵活、支持运行中扩缩容等优势,有效提升了用户体验与安全性。

导读

在当今数据驱动的时代,高效、灵活地处理和分析海量数据成为企业数字化转型的关键。阿里云智能湖仓一体大数据开发治理平台DataWorks具备强大的数据建模、数据集成、数据开发、数据分析和数据治理等功能,为企业提供了从数据接入到价值洞察的全链路解决方案,并不断在大数据开发治理领域推陈出新。其中,资源组的Serverless化,则标志着DataWorks在用户使用灵活度与成本效率提升到了新的高度,是DataWorks架构的重要演进。本文将深入揭秘DataWorks资源组的Serverless进化之路,探讨这一转变背后的技术逻辑、带来的变革以及对用户和行业的影响。


一、Serverless:云计算的新篇章

广义定义:Serverless强调的是一种架构理念和服务模型,所谓的“无服务器”并不是“没有服务器”,而指构建和运行不需要服务器管理的应用程序概念。它描述了一种更细粒度的部署模型,其中将应用程序打包为一个或多个功能,上传到平台,然后执行、扩展和计费,以响应当时确切的需求。

—— CNCF WG-Serverless Whitepaper v1.0

Serverless架构这种新的模式,意味着开发者可以更加专注于业务逻辑,而非基础设施的运维,从而极大地提高了开发效率和资源利用率。在费用方面,Serverless通常采用按需付费模式,仅在代码实际运行时计费,进一步降低了成本。


二、DataWorks资源组的挑战与战略选择

DataWorks资源组属于DataWorks的基础服务,是管理和隔离计算资源的逻辑单位,为DataWorks上的各个功能模块如数据开发、数据集成和数据调度等提供计算资源,资源组的状态将影响到相关功能的稳定运行,资源组的调度,将影响任务或服务运行的效率。

旧版资源组根据支持的功能模块不同分为不同的类型,涉及公共数据集成资源组、公共调度资源组、独享数据集成资源组、独享调度资源组、独享数据服务资源组五类,对用户来说计费逻辑复杂,购买管理不统一,使用过程中学习成本较高体验较差,同时资源预分配模式导致资源利用率低、弹性伸缩能力有限、以及运维成本较高,用户需要根据预测的工作负载手动配置和调整资源,这不仅增加了资源规划的难度,也难以应对突发流量或作业的快速变化,影响了整体的处理效率和响应速度。

面对这些挑战,DataWorks团队开始探索如何将Serverless的理念融合到资源组的管理中,依托于ASI统一资源调度架构,全面升级DataWorks的资源调度模型,旨在为用户提供一个灵活经济、安全高效的使用体验。

                                                image.png


三、资源组Serverless化的转型之旅


数据调度完全Serverless化带来使用和付费方式转变


资源组转为采用Serverless的架构,调度任务完全Serverless化后能够根据实际需求自动管理和分配计算资源,用户无需根据任务波动预先或临时调整资源的大小,平台能够根据任务负载动态调整资源,从而大幅降低空闲时间和资源浪费,将成本节省直接回馈给用户。Serverless架构也带来了付费方式的转变,用户只需按实际使用的计算量付费,很大程度上无需预估或预留资源,极大地简化了成本管理和优化过程,单个场景计费案例下成本最高可减少40%。

                                image.png


任务类型完全区分驱动调度效率和使用体验提升


将调度型任务和计算型任务完全区分开来,解决计算任务带来的资源消耗影响调度任务的资源问题,这种方式使得任务调度能力获得进一步的提升,相比原先公共资源组最大任务并发数提升了4倍。完全解决了数据集成任务调度和计算资源冲突问题,平台通过异步链路模式,彻底屏蔽集成任务调度资源损耗,提升客户使用体验。


统一资源配额Quota管理实现资源平滑扩缩和高效利用


当业务波动时需要进行资源扩缩容,原有基于ECS架构下,由于需要对涉及到的物理或虚拟机实例进行手动配置,导致可能会遇到服务中断或性能波动的问题。为了解决这一问题,升级到Serverless架构后,通过Quota(资源配额)管理来控制资源使用,可以在不影响现有业务运行的情况下实现无缝的资源扩缩。同时这种机制下,扩缩容操作对用户是透明且无感的,能够极大程度的确保服务的连续性和稳定性。

同时,原有ECS架构下,会出现受限于单个ECS节点的资源上限和碎片化问题。Serverless架构下通过统一资源配额Quota管理的方式,实现对资源进行更精细化的管理,可以精确到每个任务级别的资源分配:

  • 最小任务资源管理为0.25vCPU的资源使用,相比原先最小4Core8G作为起始计算资源售卖,用户可以更加的充分灵活使用资源,资源利用更加高效;
  • 避免了因ECS规格的单点资源限制导致的任务调度瓶颈或阻塞,同时也提高了整体系统的响应能力和资源利用率


容器运行时技术保障安全隔离


在Serverless架构下,如何保障数据和任务的安全隔离是不可避免要面临的问题。DataWorks通过采用如runD这样的容器运行时技术,使得每个任务都在独立的执行环境中运行,实现了资源、网络和环境的隔离。这种情况下,即使在同一租户内,不同任务间也无法互相干扰,减少了潜在的安全风险和数据泄露的可能性,相对于原有单租户内节点资源共享的资源组模型,安全性获得显著提升。这种任务级别的隔离机制是云原生安全实践的重要组成部分,为敏感应用和数据提供了更强的保护屏障。


                                        image.png


四、Serverless资源组的核心优势

  • 通用型:不区分用途,DataWorks任何能力都可以使用
  • 付费形式灵活:支持按量、包年包月两种付费形式,其中可购买资源抵扣包抵扣按量计费
  • 支持运行中扩缩容(即将上线):扩缩容时不影响已有任务的运行
  • 支持扩缩容定时计划(即将上线):可根据业务运行规律,设置扩缩容计划,定时扩缩容,保障业务运行的同时最大限度减小开销
  • 按需使用无浪费:用多少买多少,避免无效的资源限制,最小购买粒度为1CU
  • 高隔离性安全保障:属于用户的独享资源,网络控制也完全由用户做主,提升了安全性和隔离性


                                  image.png


五、Serverless资源组的快速使用与旧版迁移

目前Serverless资源组已经上线各大Region,用户可登陆DataWorks控制台在资源组列表的独享资源组页签下进行创建和使用,详细指导步骤可参见新增和使用Serverless资源组如果用户已使用DataWorks的旧版资源组,并计划切换为Serverless资源组,可在切换前评估各项已有任务的资源消耗情况,然后切换到足够承载所有任务的Serverless资源组。为了能够平滑迁移,可参考不同任务所需CU的评估示例、切换前后可能的影响以及从旧版资源组切换到Serverless资源组的操作指导来进行操作。

在此,DataWorks推出300CU*H额度的资源抵扣包,DataWorks新用户可首月免费试用,抵扣按量付费的资源组使用,欢迎体验。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
3月前
|
数据采集 运维 DataWorks
DataWorks产品使用合集之Serverless资源组与旧版资源组对比有什么区别
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之公共集成资源组如何切换独享资源
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
SQL DataWorks 关系型数据库
DataWorks操作报错合集之离线同步任务时,如何解决资源组报错:errormessage:Render instance failed
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
DataWorks 安全 测试技术
DataWorks产品使用合集之调用starrock的测试环境和生产环境是否需要两个资源组
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 关系型数据库 API
DataWorks产品使用合集之在配置独享调度资源组的环境变量时,如何通过环境变量的方式进行配置
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之资源组切换后仍然报错,并且提示了新的IP地址172.25.0.67,该如何排查
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
2月前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
152 13
|
3月前
|
Serverless API 异构计算
函数计算产品使用问题之修改SD模版应用的运行环境
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
3月前
|
运维 Serverless 网络安全
函数计算产品使用问题之通过仓库导入应用时无法配置域名外网访问,该如何排查
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。

相关产品

  • 大数据开发治理平台 DataWorks