Fluid 架构创新论文被国际数据库顶会 ICDE 录用

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
可观测监控 Prometheus 版,每月50GB免费额度
简介: 近日,由阿里云联合南京大学团队撰写的关于 Fluid 开源项目架构创新论文被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。


近日,由阿里云联合南京大学团队撰写的关于 Fluid 开源项目架构创新论文被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。


1.png


ICDE(International Conference on Data Engineering,即国际数据工程会议)是电气与电子工程师协会(IEEE)的旗舰会议,和 SIGMOD、VLDB并 称数据管理与数据库领域的三大国际顶尖学术会议,入选中国计算机学会(CCF)推荐 A 类国际会议列表。

此次被录用的论文--《Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs》,针对云原生环境下运行深度学习训练作业往往面临 I/O 方面的性能挑战,提出了新的数据集抽象和弹性加速系统架构,通过数据集特性自动优化的缓存引擎来加速数据的访问。其作者主要来自阿里云云原生团队和南京大学计算机系。


Fluid(https://github.com/fluid-cloudnative/fluid)是云原生计算基金会(CNCF)旗下的一个弹性数据编排和加速沙箱开源项目,是由阿里云云原生团队和南京大学共同发起,并投入大量精力维护的。其核心技术功能包括:屏蔽异构存储的数据集抽象、数据缓存自动弹性扩缩容、云上数据与应用协同编排等。自 2020 年开源以来,Fluid 项目发展迅速,积累 1000 余次 PR 提交,发布了 7 个版本,并于 2021 年 4 月正式入选云原生计算基金会,填补了 Kubernetes 生态中弹性数据缓存编排方面的空白,并进入国际 CNCF 全景图开源云原生编排调度软件层、被评为 2021 年度 OSCAR 尖峰开源项目。


在实际生产环境中,Fluid 已经帮助大量用户显著地提升 AI 模型训练性能,降低训练数据的管理复杂度。阿里云云原生团队将 Fluid 的核心思想和设计,作为云原生 AI 领域的重要一环实现和优化,并通过容器服务 ACK 的云原生 AI 套件产品提供服务。


过去几年,阿里云通过容器服务 ACK 在异构计算资源管理、AI 任务生命周期管理、AI 任务调度和加速、AI 训练数据加速等方面,进行了一系列云原生 AI  方向的持续实践和创新,为 AI 工程创建效率、计算资源利用率、AI 平台建设速度等带来了突破性提升。这些创新除了在云上服务通过多种工具和解决方案为企业赋能之外,阿里云云原生团也将领先的云原生 AI 技术框架反哺开源,与合作伙伴共同发起并维护开源项目 Fluid,并将其向云原生基金会 CNCF 捐献。现在,已有来自 10+知名企业的 140+ 贡献者,和 Fluid 社区一起推动国内云原生 AI 领域的技术创新与落地实践。


此次论文入选 ICDE,也代表阿里云在云原生容器技术领域持续深耕和不断创新的又一个结果,在此之前 Serverless 相关的去中心化快速镜像分发技术论文被 USENIX ATC’21 录用。2022 年 1 月,国际权威咨询机构 Forrester 发布《 The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022 》报告显示,阿里云进入全球公共云容器平台"领导者"象限,这是中国云计算厂商首次进入该象限。


附论文信息


录用论文题目:Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs (ICDE 2022)


作者:顾荣,张凯,徐之浩,车漾,范斌,侯浩军,戴海鹏,易立,丁宇,陈贵海,黄宜华


论文概述: 得益于云原生平台提供的容器化与编排技术所具有的高弹性、低成本、灵活运维等优势,越来越多的用户开始在 以Kubenetes/Docker 技术为代表的容器云平台上运行深度学习训练作业。然而,直接在云原生环境下运行深度学习训练作业往往面临 I/O 方面的性能挑战,包括复杂的数据访问和调优、难以动态匹配 GPU I/O 需求、以及跨作业的缓存数据资源共享低效等。针对上述问题,本文研究提出了一套基于 Fluid 的解决方案:一个面向云原生深度学习作业训练的数据集抽象和弹性加速系统。Fluid 通过提供一个 Fluid Dataset 的数据抽象屏蔽了底层异构的存储,并且通过一种面向数据集特性自动优化的缓存引擎来加速数据的访问。进一步地,Fluid 还可以在作业训练过程中根据 I/O 需求的变化,动态调整缓存空间的大小。最后,为了提升多作业执行的性能,Fluid 还能够根据跨作业缓存的应用语义优化作业调度执行次序,从而提升总体执行性能。相关场景实验表明,Fluid能够大幅提升主流和业界领先的云原生调度系统的性能,并且对原系统无侵入性。



相关文章
|
1月前
|
存储 分布式计算 数据库
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
|
1月前
|
消息中间件 架构师 Cloud Native
软考高级系统架构师论文,到底该怎么写
软考高级系统架构师论文,到底该怎么写
116 0
|
3月前
|
存储 运维 Cloud Native
核心系统转型问题之阿里云数据库在国际市场的布局情况咋样
核心系统转型问题之阿里云数据库在国际市场的布局情况咋样
|
5月前
|
存储 关系型数据库 分布式数据库
内附原文|详解SIGMOD’24最佳论文:PolarDB破解多主架构经典难题
在今年的SIGMOD会议上,阿里云瑶池数据库团队的论文《PolarDB-MP: A Multi-Primary Cloud-Native Database via Disaggregated Shared Memory》获得了Industry Track Best Paper Award,这是中国企业独立完成的成果首次摘得SIGMOD最高奖。PolarDB-MP是基于分布式共享内存的多主云原生数据库,本文将介绍这篇论文的具体细节。
内附原文|详解SIGMOD’24最佳论文:PolarDB破解多主架构经典难题
|
3月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
47 1
|
5月前
|
边缘计算 Cloud Native
“论SOA在企业集成架构设计中的应用”必过范文,突击2024软考高项论文
SOA架构,即面向服务的架构,它将系统中的所有功能都拆分为一个个独立的服务单元。这些服务通过相互间的沟通与配合,共同完成了整体业务逻辑的运作。在SOA架构中有几个核心概念:服务提供者、服务使用者、服务注册中心、服务规范、服务合同,这些概念清晰地阐述了服务应如何被提
230 6
“论SOA在企业集成架构设计中的应用”必过范文,突击2024软考高项论文
|
6月前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
阿里云、平头哥与Arm联合举办的飞天技术沙龙在上海举行,聚焦Arm Neoverse核心优势和倚天710计算实例在大数据、视频领域的应用。活动中,专家解读了倚天710的性能提升和成本效益,强调了CIPU云原生基础设施处理器的角色,以及如何通过软件优化实现资源池化和稳定性平衡。实例展示在视频编码和大数据处理上的性能提升分别达到80%和70%的性价比优化。沙龙吸引众多企业代表参与,促进技术交流与实践解决方案的探讨。
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
|
5月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
64 3
|
6月前
|
Cloud Native 物联网 持续交付
未来科技浪潮:区块链、物联网与虚拟现实的融合创新云原生技术:重塑IT架构的未来
【5月更文挑战第31天】在信息技术飞速发展的今天,新兴技术如区块链、物联网和虚拟现实等正成为推动社会进步的重要力量。本文将探讨这些技术的发展趋势及其在各领域的应用前景,揭示它们如何相互融合,共同塑造一个智能化、互联的未来世界。 【5月更文挑战第31天】本文深入探讨了云原生技术的兴起及其对传统IT架构的颠覆性影响。通过分析云原生的核心概念,如微服务、容器化、以及持续集成/持续部署(CI/CD),文章揭示了这些技术如何促进更高效、灵活和可扩展的软件开发实践。同时,本文还讨论了企业在采用云原生技术时面临的挑战与机遇,并展望了云原生技术在未来IT领域的发展趋势。
|
6月前
|
机器学习/深度学习 人工智能 监控
论文介绍:Masked-attention Mask Transformer (Mask2Former)——通用图像分割的新架构
【5月更文挑战第24天】Mask2Former,一种新型的图像分割架构,采用遮蔽注意力机制聚焦局部特征,提升模型收敛速度和性能,在COCO、Cityscapes等数据集上刷新记录。其元架构结合背景特征提取器、像素解码器和Transformer解码器,实现高效训练和性能提升。尽管在处理小对象和泛化能力上仍有局限,但Mask2Former为通用图像分割开辟了新路径。[链接](https://arxiv.org/abs/2112.01527)
245 5