Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 2024年12月24日,阿里云Serverless Argo Workflows大规模计算工作流平台荣获由中国信息通信研究院颁发的「云原生技术创新案例」奖。

【阅读原文】戳:Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”

2024年12月24日,由中国信息通信研究院(以下简称“中国信通院”)主办的“2025中国信通院深度观察报告会:算力互联网分论坛”,在北京隆重召开。本次论坛以“算力互联网 新质生产力”为主题,全面展示中国信通院在算力互联网产业领域的研究、实践与业界共识,与产业先行者共同探索算力互联网产业未来发展的方向。

 

会议公布了“2024年度云原生与应用现代化标杆案例”评选结果,“阿里云Serverless Argo Workflows大规模计算工作流平台” 获得 “云原生技术创新标杆案例”


 

 

 

 

 

什么是Argo Workflows

 

 

 

Argo Workflows[1]是云原生计算基金会CNCF的毕业项目,项目成熟稳定,大量客户实际落地使用。Argo Workflows专为Kubernetes而设计,是离线任务编排与运行引擎,适用于仿真计算、科学计算、金融量化、机器学习数据处理、持续集成等场景。

 

 

Argo Workflow核心能力:

 

完善的UI / CLI / REST API / SDK,易用性好上手快,容易被集成。

 

多子任务编排,支持顺序流程和DAG流程,可以应对复杂流程编排。

 

每个子任务通过Kubernetes Pod运行,可以应对计算密集型任务。

 

预定义模版与模版组合,便于开发和业务复用。

 

 

 

 

 

阿里云Serverless Argo Workflows集群的优势

 

 

 

使用开源Argo Workflows自建工作流系统往往存在以下问题:

 

大规模工作流引起稳定性问题:

 

runC运行Pod,节点多容器争抢计算资源,内存OOM、磁盘满,频繁宕机。

 

工作流结果资源GC失败,controller连接数据库异常重启等。

 

大规模子任务Pod导致Kubernetes APIServer、Argo UI、Argo Controller异常等。

 

单体大工作流数据库归档失败。

 

大文档上传下载慢。

 

成本高,包含资源费用与运维人力成本:

 

工作流运行离线任务,计算资源波动大,按业务高峰规划固定资源池的成本高。

 

减少固定资源池,造成业务高峰工作流排队严重,影响业务效率。

 

不同部门对固定资源的成本难以分摊和统计。

 

日常运维工作量大,包括:底座Kubernetes集群的运维、资源规划、问题诊断、版本持续升级。

 

 

针对开源自建Argo Workflows系统的各种问题,阿里云Serverless Argo Workflows集群[2]采用全托管Kubernetes控制面(复用阿里云容器服务ACK Pro控制面[3])与Argo Workflows控制面,并针对单体大工作流、大规模子任务Pod并行调度运行做了针对性的性能优化,同时使用阿里云容器服务ACS[4]提供的Serverless Pod运行工作流。通过控制面性能调优和ACS的Serverless极致弹性算力,工作流规模对比开源自建提升10倍,单体大工作流可以支持数万子任务Pod,集群整体可以支持数千工作流和数万子任务的并行运行。

 

利用Serverless弹性算力,可以应对离线任务对计算资源波动大的挑战,业务高峰可以调度阿里云充足的计算资源避免工作流排队,提升业务效率。同时,完全按使用收费,避免维护固定资源池,大大降低了计算资源的费用,并支持工作流级别的成本分摊。

 

阿里云Serverless Argo Workflows集群,全托管控制面与数据面,开箱即用,免运维,并提供7*24小时产品化支持,对比开源自建节省大量运维成本。

 

目前,阿里云Serverless Argo Workflows集群已经在自动驾驶仿真计算、科学计算、金融量化、机器学习、数据处理、持续集成领域广泛应用。

 

 

 

 

行业案例

 

 

自动驾驶仿真

 

 

 

预定义仿真流程,仿真系统通过Argo Workflows Rest API提交工作流。

 

每个仿真场景启动一个Pod运行,利用Serverless弹性,并行运行数万Pod,大大加快仿真速度。

 

 

持续集成CI

 

 

 

CI构建是典型的潮汐算力行为,采用ECS/物理机构建模式,需要长期持有固定算力资源,整体资源使用成本较高,并且对于部分突发的构建任务支撑不足。利用Serverless弹性算力,完美解决预留资源高成本与CI突发算力需求的矛盾。

 

预构建工作流模版,自定义CI流程,结合事件驱动,自动触发工作流CI运行。

 

使用Spot算力,大大降低CI运行成本,并通过按量付费补齐能力,保证CI可靠运行。

 

 

量化回测

 

 

 

通过PythonSDK快速提交工作流。

 

每个股票启动一个Pod运行,利用Serverless弹性,并行运行数万Pod,大大加快回测运行速度。

 

 

 

 

总结

 

 

 

 

阿里云容器服务Serverless Argo Workflows大规模工作流平台作为云原生技术创新标杆案例,引领了云原生大规模离线任务处理的新方法。未来会继续在Serverless弹性、大规模、稳定性、成本等方向深耕,进一步促进大规模离线任务在Serverless场景下的快速落地。

 

欢迎使用钉钉搜索群号加入我们。(钉钉群号:35688562

 

相关链接:

 

[1] Argo Workflows

https://argoproj.github.io/workflows/

 

[2] 阿里云Serverless Argo Workflows集群

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/overview-12

 

[3] 阿里云容器服务ACK Pro

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/product-overview/what-is-ack

 

[4] 阿里云容器服务ACS

https://help.aliyun.com/zh/cs/product-introduction



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
9月前
|
存储 人工智能 Serverless
AI 短剧遇上函数计算,一键搭建内容创意平台
为了帮助更多内容创作者和企业快速实现 AI 短剧创作,函数计算 FC 联合百炼联合推出“AI 剧本生成与动画创作解决方案”,通过函数计算 FC 构建 Web 服务,结合百炼模型服务和 ComfyUI 生图平台,实现从故事剧本撰写、插图设计、声音合成和字幕添加到视频合成的一站式自动化流程。创作者只需通过简单操作,就能快速生成高质量的剧本,并一键转化为精美的动画。
629 110
|
9月前
|
消息中间件 存储 Cloud Native
云消息队列 Kafka 版 V3 系列荣获信通院“云原生技术创新标杆案例”
2024 年 12 月 24 日,由中国信息通信研究院(以下简称“中国信通院”)主办的“2025 中国信通院深度观察报告会:算力互联网分论坛”,在北京隆重召开。本次论坛以“算力互联网 新质生产力”为主题,全面展示中国信通院在算力互联网产业领域的研究、实践与业界共识,与产业先行者共同探索算力互联网产业未来发展的方向。会议公布了“2024 年度云原生与应用现代化标杆案例”评选结果,“云消息队列 Kafka 版 V3 系列”荣获“云原生技术创新标杆案例”。
261 95
|
5月前
|
人工智能 运维 安全
阿里云 Serverless 助力海牙湾构建弹性、高效、智能的 AI 数字化平台
海牙湾(G-Town)是一家以“供应链+场景+技术+AI”为核心驱动力的科技公司,致力于为各行业提供数字化转型解决方案。通过采用阿里云Serverless架构,解决了弹性能力不足、资源浪费与运维低效的问题。SAE全托管特性降低了技术复杂度,并计划进一步探索Serverless与AI结合,推动智能数字化发展。海牙湾业务覆盖金融、美妆、能源等领域,与多家知名企业建立战略合作,持续优化用户体验和供应链决策能力,保障信息安全并创造可量化的商业价值。未来,公司将深化云原生技术应用,助力更多行业实现高效数字化转型。
427 19
|
6月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
322 6
|
6月前
|
Cloud Native Serverless 流计算
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
379 12
|
7月前
|
存储 人工智能 Serverless
AI 短剧遇上函数计算,一键搭建内容创意平台
AI 短剧遇上函数计算,一键搭建内容创意平台
114 0
|
9月前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
7天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
|
1月前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
298 12
|
6月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
646 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用

热门文章

最新文章