近日,由阿里云联合南京大学团队撰写的关于 Fluid 开源项目架构创新论文被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。
ICDE(International Conference on Data Engineering,即国际数据工程会议)是电气与电子工程师协会(IEEE)的旗舰会议,和 SIGMOD、VLDB并 称数据管理与数据库领域的三大国际顶尖学术会议,入选中国计算机学会(CCF)推荐 A 类国际会议列表。
此次被录用的论文--《Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs》,针对云原生环境下运行深度学习训练作业往往面临 I/O 方面的性能挑战,提出了新的数据集抽象和弹性加速系统架构,通过数据集特性自动优化的缓存引擎来加速数据的访问。其作者主要来自阿里云云原生团队和南京大学计算机系。
Fluid(https://github.com/fluid-cloudnative/fluid)是云原生计算基金会(CNCF)旗下的一个弹性数据编排和加速沙箱开源项目,是由阿里云云原生团队和南京大学共同发起,并投入大量精力维护的。其核心技术功能包括:屏蔽异构存储的数据集抽象、数据缓存自动弹性扩缩容、云上数据与应用协同编排等。自 2020 年开源以来,Fluid 项目发展迅速,积累 1000 余次 PR 提交,发布了 7 个版本,并于 2021 年 4 月正式入选云原生计算基金会,填补了 Kubernetes 生态中弹性数据缓存编排方面的空白,并进入国际 CNCF 全景图开源云原生编排调度软件层、被评为 2021 年度 OSCAR 尖峰开源项目。
在实际生产环境中,Fluid 已经帮助大量用户显著地提升 AI 模型训练性能,降低训练数据的管理复杂度。阿里云云原生团队将 Fluid 的核心思想和设计,作为云原生 AI 领域的重要一环实现和优化,并通过容器服务 ACK 的云原生 AI 套件产品提供服务。
过去几年,阿里云通过容器服务 ACK 在异构计算资源管理、AI 任务生命周期管理、AI 任务调度和加速、AI 训练数据加速等方面,进行了一系列云原生 AI 方向的持续实践和创新,为 AI 工程创建效率、计算资源利用率、AI 平台建设速度等带来了突破性提升。这些创新除了在云上服务通过多种工具和解决方案为企业赋能之外,阿里云云原生团也将领先的云原生 AI 技术框架反哺开源,与合作伙伴共同发起并维护开源项目 Fluid,并将其向云原生基金会 CNCF 捐献。现在,已有来自 10+知名企业的 140+ 贡献者,和 Fluid 社区一起推动国内云原生 AI 领域的技术创新与落地实践。
此次论文入选 ICDE,也代表阿里云在云原生容器技术领域持续深耕和不断创新的又一个结果,在此之前 Serverless 相关的去中心化快速镜像分发技术论文被 USENIX ATC’21 录用。2022 年 1 月,国际权威咨询机构 Forrester 发布《 The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022 》报告显示,阿里云进入全球公共云容器平台"领导者"象限,这是中国云计算厂商首次进入该象限。
附论文信息
录用论文题目:Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs (ICDE 2022)
作者:顾荣,张凯,徐之浩,车漾,范斌,侯浩军,戴海鹏,易立,丁宇,陈贵海,黄宜华
论文概述: 得益于云原生平台提供的容器化与编排技术所具有的高弹性、低成本、灵活运维等优势,越来越多的用户开始在 以Kubenetes/Docker 技术为代表的容器云平台上运行深度学习训练作业。然而,直接在云原生环境下运行深度学习训练作业往往面临 I/O 方面的性能挑战,包括复杂的数据访问和调优、难以动态匹配 GPU I/O 需求、以及跨作业的缓存数据资源共享低效等。针对上述问题,本文研究提出了一套基于 Fluid 的解决方案:一个面向云原生深度学习作业训练的数据集抽象和弹性加速系统。Fluid 通过提供一个 Fluid Dataset 的数据抽象屏蔽了底层异构的存储,并且通过一种面向数据集特性自动优化的缓存引擎来加速数据的访问。进一步地,Fluid 还可以在作业训练过程中根据 I/O 需求的变化,动态调整缓存空间的大小。最后,为了提升多作业执行的性能,Fluid 还能够根据跨作业缓存的应用语义优化作业调度执行次序,从而提升总体执行性能。相关场景实验表明,Fluid能够大幅提升主流和业界领先的云原生调度系统的性能,并且对原系统无侵入性。