Fluid 架构创新论文被国际数据库顶会 ICDE 录用

简介: 近日,由阿里云联合南京大学团队撰写的关于 Fluid 开源项目架构创新论文被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。


近日,由阿里云联合南京大学团队撰写的关于 Fluid 开源项目架构创新论文被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。


1.png


ICDE(International Conference on Data Engineering,即国际数据工程会议)是电气与电子工程师协会(IEEE)的旗舰会议,和 SIGMOD、VLDB并 称数据管理与数据库领域的三大国际顶尖学术会议,入选中国计算机学会(CCF)推荐 A 类国际会议列表。

此次被录用的论文--《Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs》,针对云原生环境下运行深度学习训练作业往往面临 I/O 方面的性能挑战,提出了新的数据集抽象和弹性加速系统架构,通过数据集特性自动优化的缓存引擎来加速数据的访问。其作者主要来自阿里云云原生团队和南京大学计算机系。


Fluid(https://github.com/fluid-cloudnative/fluid)是云原生计算基金会(CNCF)旗下的一个弹性数据编排和加速沙箱开源项目,是由阿里云云原生团队和南京大学共同发起,并投入大量精力维护的。其核心技术功能包括:屏蔽异构存储的数据集抽象、数据缓存自动弹性扩缩容、云上数据与应用协同编排等。自 2020 年开源以来,Fluid 项目发展迅速,积累 1000 余次 PR 提交,发布了 7 个版本,并于 2021 年 4 月正式入选云原生计算基金会,填补了 Kubernetes 生态中弹性数据缓存编排方面的空白,并进入国际 CNCF 全景图开源云原生编排调度软件层、被评为 2021 年度 OSCAR 尖峰开源项目。


在实际生产环境中,Fluid 已经帮助大量用户显著地提升 AI 模型训练性能,降低训练数据的管理复杂度。阿里云云原生团队将 Fluid 的核心思想和设计,作为云原生 AI 领域的重要一环实现和优化,并通过容器服务 ACK 的云原生 AI 套件产品提供服务。


过去几年,阿里云通过容器服务 ACK 在异构计算资源管理、AI 任务生命周期管理、AI 任务调度和加速、AI 训练数据加速等方面,进行了一系列云原生 AI  方向的持续实践和创新,为 AI 工程创建效率、计算资源利用率、AI 平台建设速度等带来了突破性提升。这些创新除了在云上服务通过多种工具和解决方案为企业赋能之外,阿里云云原生团也将领先的云原生 AI 技术框架反哺开源,与合作伙伴共同发起并维护开源项目 Fluid,并将其向云原生基金会 CNCF 捐献。现在,已有来自 10+知名企业的 140+ 贡献者,和 Fluid 社区一起推动国内云原生 AI 领域的技术创新与落地实践。


此次论文入选 ICDE,也代表阿里云在云原生容器技术领域持续深耕和不断创新的又一个结果,在此之前 Serverless 相关的去中心化快速镜像分发技术论文被 USENIX ATC’21 录用。2022 年 1 月,国际权威咨询机构 Forrester 发布《 The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022 》报告显示,阿里云进入全球公共云容器平台"领导者"象限,这是中国云计算厂商首次进入该象限。


附论文信息


录用论文题目:Fluid: Dataset Abstraction and Elastic Acceleration for Cloud-native Deep Learning Training Jobs (ICDE 2022)


作者:顾荣,张凯,徐之浩,车漾,范斌,侯浩军,戴海鹏,易立,丁宇,陈贵海,黄宜华


论文概述: 得益于云原生平台提供的容器化与编排技术所具有的高弹性、低成本、灵活运维等优势,越来越多的用户开始在 以Kubenetes/Docker 技术为代表的容器云平台上运行深度学习训练作业。然而,直接在云原生环境下运行深度学习训练作业往往面临 I/O 方面的性能挑战,包括复杂的数据访问和调优、难以动态匹配 GPU I/O 需求、以及跨作业的缓存数据资源共享低效等。针对上述问题,本文研究提出了一套基于 Fluid 的解决方案:一个面向云原生深度学习作业训练的数据集抽象和弹性加速系统。Fluid 通过提供一个 Fluid Dataset 的数据抽象屏蔽了底层异构的存储,并且通过一种面向数据集特性自动优化的缓存引擎来加速数据的访问。进一步地,Fluid 还可以在作业训练过程中根据 I/O 需求的变化,动态调整缓存空间的大小。最后,为了提升多作业执行的性能,Fluid 还能够根据跨作业缓存的应用语义优化作业调度执行次序,从而提升总体执行性能。相关场景实验表明,Fluid能够大幅提升主流和业界领先的云原生调度系统的性能,并且对原系统无侵入性。



相关文章
|
7月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
387 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
7月前
|
机器学习/深度学习 算法 物联网
μNAS:面向微控制器的约束神经架构搜索——论文解读
μNAS是一种专为微控制器设计的神经架构搜索方法,旨在解决物联网设备中资源受限的挑战。通过多目标优化框架,μNAS能够在有限的内存和计算能力下,自动搜索出高效的神经网络结构。该方法结合了老化进化算法与贝叶斯优化,并引入结构化剪枝技术,实现模型压缩。实验表明,μNAS在多个数据集上均取得了优异的精度与资源使用平衡,显著优于现有方法,为边缘计算设备的智能化提供了可行路径。
516 129
|
11月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
6月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
549 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
7月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
285 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
7月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
409 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
7月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
1111 0
|
10月前
|
存储 关系型数据库 数据库
高性能云盘:一文解析RDS数据库存储架构升级
性能、成本、弹性,是客户实际使用数据库过程中关注的三个重要方面。RDS业界率先推出的高性能云盘(原通用云盘),是PaaS层和IaaS层的深度融合的技术最佳实践,通过使用不同的存储介质,为客户提供同时满足低成本、低延迟、高持久性的体验。
|
11月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
497 4
|
12月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。