Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 2024年12月24日,阿里云Serverless Argo Workflows大规模计算工作流平台荣获由中国信息通信研究院颁发的「云原生技术创新案例」奖。

【阅读原文】戳:Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”

2024年12月24日,由中国信息通信研究院(以下简称“中国信通院”)主办的“2025中国信通院深度观察报告会:算力互联网分论坛”,在北京隆重召开。本次论坛以“算力互联网 新质生产力”为主题,全面展示中国信通院在算力互联网产业领域的研究、实践与业界共识,与产业先行者共同探索算力互联网产业未来发展的方向。

 

会议公布了“2024年度云原生与应用现代化标杆案例”评选结果,“阿里云Serverless Argo Workflows大规模计算工作流平台” 获得 “云原生技术创新标杆案例”


 

 

 

 

 

什么是Argo Workflows

 

 

 

Argo Workflows[1]是云原生计算基金会CNCF的毕业项目,项目成熟稳定,大量客户实际落地使用。Argo Workflows专为Kubernetes而设计,是离线任务编排与运行引擎,适用于仿真计算、科学计算、金融量化、机器学习数据处理、持续集成等场景。

 

 

Argo Workflow核心能力:

 

完善的UI / CLI / REST API / SDK,易用性好上手快,容易被集成。

 

多子任务编排,支持顺序流程和DAG流程,可以应对复杂流程编排。

 

每个子任务通过Kubernetes Pod运行,可以应对计算密集型任务。

 

预定义模版与模版组合,便于开发和业务复用。

 

 

 

 

 

阿里云Serverless Argo Workflows集群的优势

 

 

 

使用开源Argo Workflows自建工作流系统往往存在以下问题:

 

大规模工作流引起稳定性问题:

 

runC运行Pod,节点多容器争抢计算资源,内存OOM、磁盘满,频繁宕机。

 

工作流结果资源GC失败,controller连接数据库异常重启等。

 

大规模子任务Pod导致Kubernetes APIServer、Argo UI、Argo Controller异常等。

 

单体大工作流数据库归档失败。

 

大文档上传下载慢。

 

成本高,包含资源费用与运维人力成本:

 

工作流运行离线任务,计算资源波动大,按业务高峰规划固定资源池的成本高。

 

减少固定资源池,造成业务高峰工作流排队严重,影响业务效率。

 

不同部门对固定资源的成本难以分摊和统计。

 

日常运维工作量大,包括:底座Kubernetes集群的运维、资源规划、问题诊断、版本持续升级。

 

 

针对开源自建Argo Workflows系统的各种问题,阿里云Serverless Argo Workflows集群[2]采用全托管Kubernetes控制面(复用阿里云容器服务ACK Pro控制面[3])与Argo Workflows控制面,并针对单体大工作流、大规模子任务Pod并行调度运行做了针对性的性能优化,同时使用阿里云容器服务ACS[4]提供的Serverless Pod运行工作流。通过控制面性能调优和ACS的Serverless极致弹性算力,工作流规模对比开源自建提升10倍,单体大工作流可以支持数万子任务Pod,集群整体可以支持数千工作流和数万子任务的并行运行。

 

利用Serverless弹性算力,可以应对离线任务对计算资源波动大的挑战,业务高峰可以调度阿里云充足的计算资源避免工作流排队,提升业务效率。同时,完全按使用收费,避免维护固定资源池,大大降低了计算资源的费用,并支持工作流级别的成本分摊。

 

阿里云Serverless Argo Workflows集群,全托管控制面与数据面,开箱即用,免运维,并提供7*24小时产品化支持,对比开源自建节省大量运维成本。

 

目前,阿里云Serverless Argo Workflows集群已经在自动驾驶仿真计算、科学计算、金融量化、机器学习、数据处理、持续集成领域广泛应用。

 

 

 

 

行业案例

 

 

自动驾驶仿真

 

 

 

预定义仿真流程,仿真系统通过Argo Workflows Rest API提交工作流。

 

每个仿真场景启动一个Pod运行,利用Serverless弹性,并行运行数万Pod,大大加快仿真速度。

 

 

持续集成CI

 

 

 

CI构建是典型的潮汐算力行为,采用ECS/物理机构建模式,需要长期持有固定算力资源,整体资源使用成本较高,并且对于部分突发的构建任务支撑不足。利用Serverless弹性算力,完美解决预留资源高成本与CI突发算力需求的矛盾。

 

预构建工作流模版,自定义CI流程,结合事件驱动,自动触发工作流CI运行。

 

使用Spot算力,大大降低CI运行成本,并通过按量付费补齐能力,保证CI可靠运行。

 

 

量化回测

 

 

 

通过PythonSDK快速提交工作流。

 

每个股票启动一个Pod运行,利用Serverless弹性,并行运行数万Pod,大大加快回测运行速度。

 

 

 

 

总结

 

 

 

 

阿里云容器服务Serverless Argo Workflows大规模工作流平台作为云原生技术创新标杆案例,引领了云原生大规模离线任务处理的新方法。未来会继续在Serverless弹性、大规模、稳定性、成本等方向深耕,进一步促进大规模离线任务在Serverless场景下的快速落地。

 

欢迎使用钉钉搜索群号加入我们。(钉钉群号:35688562

 

相关链接:

 

[1] Argo Workflows

https://argoproj.github.io/workflows/

 

[2] 阿里云Serverless Argo Workflows集群

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/overview-12

 

[3] 阿里云容器服务ACK Pro

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/product-overview/what-is-ack

 

[4] 阿里云容器服务ACS

https://help.aliyun.com/zh/cs/product-introduction



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
1天前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
3天前
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
2月前
|
边缘计算 运维 Cloud Native
阿里云基于云原生的大规模云边协同关键技术及应用荣获浙江省科学技术进步一等奖
11月22日, 2023年度浙江省科学技术奖获奖成果公布,阿里云与浙江大学、支付宝、谐云科技联合完成的基于云原生的大规模云边协同关键技术及应用获得浙江省科学技术进步一等奖。
|
2月前
|
人工智能 Cloud Native 算法
|
2月前
|
Kubernetes Cloud Native 调度
云原生批量任务编排引擎Argo Workflows发布3.6,一文解析关键新特性
Argo Workflows是CNCF毕业项目,最受欢迎的云原生工作流引擎,专为Kubernetes上编排批量任务而设计,本文主要对最新发布的Argo Workflows 3.6版本的关键新特性做一个深入的解析。
|
3月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
3月前
|
Kubernetes Cloud Native Serverless
批处理系统:Batch批量计算与云原生Serverless Argo Workflows
本文对比了Batch批量计算与Serverless Argo Workflows在容器化批处理任务中的应用,分析了两者在任务定义、依赖关系、规模并发、高级编排、可移植性等方面的异同,帮助技术决策者根据自身需求选择合适的平台。
|
4月前
|
Kubernetes 监控 Cloud Native
Cluster Optimizer:一款云原生集群优化平台
**Cluster Optimizer** 是一款云原生集群优化平台,旨在通过自动化和智能化工具帮助企业降低云成本,解决云原生架构中的成本管理难题。面对资源闲置、配置不当和缺乏自动化优化机制等挑战,Cluster Optimizer能够深入分析云资源、应用和用户行为,精准识别优化机会,并给出具体建议,涵盖节点组、节点、GPU 节点、磁盘、持久卷和应用等多个维度。通过优化实例类型、自动扩缩容和资源分配,帮助企业降低成本、提升性能和效率。[点击此处](https://www.wiseinf.com.cn/docs/setup/) 免费安装和试用 **Cluster Optimizer 社区版**。
114 9
|
5月前
|
存储 边缘计算 Kubernetes
边缘计算问题之边缘计算平台建设中业务应用践行云原生体系如何解决
边缘计算问题之边缘计算平台建设中业务应用践行云原生体系如何解决
69 1
|
4月前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
183 13