阿里云联合上海交大荣膺 FAST'26 最佳论文:揭秘云上本地存储的演进与未来发展

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 通过论文,阿里云展示了如何利用软硬协同(ASIC+SoC)与端云融合(Local+EBS)的技术红利,打破存储性能、成本与可靠性的“不可能三角”。

在刚刚结束的存储领域顶级学术会议 FAST '26(24th USENIX Conference on File and Storage Technologies) 上,阿里云(Alibaba  Cloud)联合上海交通大学(SJTU)、Solidigm 共同发表的论文 《Here, There and Everywhere: The Past, the Present and the Future of Local Storage in Cloud》 获得最佳论文奖(Best Paper Award)。本届大会仅有两篇论文获此殊荣。值得一提的是,这也是阿里云存储相关研究在过去四年内第三次获得国际学术界的最高荣誉。



本论文从大规模生产实践出发,直面云原生时代本地存储的核心矛盾:一方面要追求更低时延与更高吞吐,另一方面必须满足云上多租户、可运维、可演进、可用性保障等工程要求。论文给出了清晰的技术路线图与可验证的体系化经验总结,也标志着阿里云在存储基础设施“软硬一体化”探索上获得了国际学术界的高度认可。

论文不仅系统阐述了阿里云本地盘(Local Storage)技术从纯软件到软硬协同的“三代进化史”(以咖啡浓度由低到高命名:Espresso、Doppio、Ristretto),更提出了一种前瞻性的端云融合存储架构——Latte。该架构通过基于机器学习的 IO 调度(ML IO Dispatcher)与cache准入控制技术(Admission Controller),在更轻量的系统开销下实现更稳定、更接近“极致”的时延与吞吐体验。在 AI 大模型推理等新兴场景中,Latte 可构建高性能、大容量、高性价比的弹性缓存层,有效降低 GPU 等计算资源消耗,提升推理效率与响应速度,为云原生与 AI 负载提供了兼顾性能确定性与资源效率的新工程范式。

阿里云本地盘技术演进与架构变革

论文用“咖啡”隐喻概括本地盘技术不断“提纯”的过程:每一代都围绕瓶颈点做架构级调整,在性能、隔离、可运维性与可演进性之间寻找更优解最初,ESPRESSO 通过用户态轮询架构(SPDK)释放 NVMe 性能,却牺牲了 CPU 效率和裸金属支持;随后,DOPPIO 借力 ASIC DPU 卸载虚拟化,提升了隔离与交付能力,但硬件固化难以跟上 SSD 快速迭代,也缺乏对复杂云特性的支持;如今的 RISTRETTO 采用 ASIC 与 ARM SoC 软硬协同设计,既保留高性能数据面,又通过可编程控制面实现灵活的 FTL 与卷管理,已在大规模场景中逼近物理盘性能极限


RISTRETTO 架构:


探究本盘形态:面向未来的混合架构 Latte

论文的核心在于提出了下一代存储愿景——Latte(一种将本地盘与云端存储能力进行融合的混合架构)

在 Latte 中,本地介质承担“近端、快速、吸收突发与热点”的职责;云端能力承担“持久化、可用性与弹性”的职责。两者通过统一的数据路径与调度机制协同工作,使系统既能保持接近本地的响应特性,也能获得上可运维、可扩展、可恢复的工程能力



本地介质以 append-only 方式高效吸收突发流量和热点数据,提供微秒级低延迟,规避了传统网络存储的长尾延迟问题;为精准调度数据流向,系统引入轻量级 ML 调度器,基于 I/O 特征动态预测热点,在 CPU 开销低于 10% 的情况下实现 95.6% 的长尾延迟预测准确率,并支持在线自适应更新;在缓存管理方面,摒弃传统的 LRU,采用优化的 S3-FIFO 淘汰策略,在保持对缓存盘写友好(写放大为1)的同时显著提升热点命中率,最终达成高达 80% 的读命中效果,兼顾了性能、效率。


深度解读:Latte 的优势是什么?

  1. “更稳”的性能体验(Tail Latency Friendly)

Latte 的设计重点之一是应对云上真实业务最头痛的长尾:抖动、拥塞、突发与干扰。通过“本地吸收 + 智能分流”,系统更容易将性能波动控制在可预期范围内。

  1. 打破“本地”限制 (Elasticity & Availability)

传统本地盘受限于物理服务器的硬盘槽位数量和大小,容量无法动态扩容,且单机故障会导致服务中断。Latte 将数据最终持久化在云盘,使得本地存储具备了云盘级别的弹性伸缩能力和故障恢复能力。在write-through 模式下,即使物理机宕机,数据依然安全存储在后端 EBS 中。

  1. 开源贡献与生态

该论文的研究基于广泛使用的开源框架(SPDK)和通用硬件。团队在设计 Latte 时,深度集成了Solidigm 合作开发的开源存储加速框架 CSAL,为业界提供了一个可复刻的、软硬结合的存储分层最佳实践。


结语

从 Espresso 到 Latte,不仅仅是本地存储形态的变化,更是云计算底层存储架构从“资源孤岛”走向“资源池化与融合”的缩影。阿里云通过这篇 FAST '26 论文,向业界展示了如何利用软硬协同(ASIC+SoC)与端云融合(Local+EBS)的技术红利,打破存储性能、成本与可靠性的“不可能三角”。未来,这种混合存储架构或将成为云原生数据库、AI 推理以及大数据分析等高性能场景的重要基础能力之一。

相关文章
|
1月前
|
存储 人工智能 缓存
四年三次,再获殊荣!阿里云斩获全球存储顶会 FAST’26 最佳论文
阿里云联合上海交大、Solidigm论文《Here, There and Everywhere》获 FAST '26 最佳论文奖,在过去四年内第三次摘得这一国际学术界最高荣誉。论文梳理了本地盘技术的“三代进化史”,并提出了本云融合存储新架构—— Latte,利用软硬协同与本云融合的技术红利,为云原生数据库、AI推理及大数据分析奠定更坚实的基石。
330 3
|
2月前
|
存储 关系型数据库 分布式数据库
阿里云PolarDB PolarStore获得顶会 FAST'26 最佳论文提名
阿里云瑶池数据库PolarStore团队论文《PolarStore: High-Performance Data Compression for Large-Scale Cloud-Native Databases》获得顶会 FAST'26 最佳论文提名(全球仅5篇)。
阿里云PolarDB PolarStore获得顶会 FAST'26 最佳论文提名
|
1月前
|
人工智能 API
OpenClaw 必看:阿里云AI节省计划和Coding Plan哪个更省钱?有啥区别?
OpenClaw用户必看:阿里云AI入门型节省计划(预付每小时最低消费,折扣抵扣,不可退订)与百炼Coding Plan(月付固定额度,按Token/调用计费,超量停用,限指定模型)核心差异在于计费逻辑、适用范围与成本控制方式。轻量部署推荐Coding Plan,更省钱可控。
679 2
|
云栖大会 双11 虚拟化
阿里造“神龙”
人类对于计算的梦想,像一条河。涓涓细流,奔腾入海。 计算的载体,从楼船一般的大型机,到快艇似的小型机,到如今万吨巨轮的云计算,我们的武器如史诗般演化,但背后却有同一个技术的身影,那就是“虚拟化”。
|
存储 调度 块存储
阿里云连续两年斩获全球存储顶会FAST最佳论文
阿里云连续两年斩获全球存储顶会FAST最佳论文
1390 0
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
本文系统剖析面向智能体推理的 KVCache 技术演进,针对传统机制在长上下文、多轮决策与多智能体协同中的状态膨胀、持久化缺失和缓存孤立三大瓶颈,介绍阿里云 Tair KVCache 团队联合 SGLang 社区推出的 HiCache 分层缓存体系。该方案通过显存-内存-3FS 多级卸载与全局共享,实现缓存命中率提升至80%,TTFT 降低56%,推理 QPS 翻倍,支撑智能体时代的大模型高效推理。
|
存储 人工智能 文件存储
阿里云网盘 Skill 上线:让 OpenClaw 的成果,手机一点就能发给客户
网盘与相册服务(PDS)为 OpenClaw 提供云端文件存储能力。配置后,OpenClaw 可直接访问网盘文件作为任务素材,也可将生成的文档、图片、视频等保存到网盘供您下载使用。网盘支持多空间隔离和文件级权限管控,确保不同用户间的数据安全。
763 3
|
18天前
|
存储 人工智能 弹性计算
阿里云网盘 Skill 上线,附 OpenClaw 配置网盘空间实操教程
阿里云网盘正式上线OpenClaw专属Skill,为龙虾AI提供云端存储、多端实时同步与精细权限管控,解决本地空间不足、跨端难协同、数据不安全等痛点,3分钟配置即享高性价比(200GB/月仅6.6元)AI工作流升级。
565 6
|
22天前
|
存储 监控 NoSQL
阿里云 Tablestore 基于 Mem0 为 OpenClaw 构建记忆系统最佳实践
云托管、数据自主、智能记忆抽取!阿里云 Tablestore 基于 mem0,为 OpenClaw “龙虾”提供跨 Session、跨 Agent,记忆持久生效的智能记忆系统。
957 4
|
25天前
|
存储 人工智能 开发工具
OSS 向量 Bucket 最佳实践:快速构建多模态图片语义检索
本文介绍基于 OSS 向量 Bucket 和阿里云大模型服务平台百炼的多模态 Embedding 模型,搭建海量图片的智能语义检索系统,实现基于自然语言描述的文搜图能力的最佳实践,适用于电商商品搜索、智能相册、媒体资产管理、AI 语义检索、图片知识库等场景。
164 5