2月21日至23日,计算机体系结构顶会USENIX FAST 2023在美国圣克拉拉召开,阿里云4篇论文被顶会收录,涉及分布式存储架构、云原生存储、用户态存储引擎等多个领域。
其中,《Perseus:A Fail-Slow Detection Framework for Cloud Storage Systems》一文还斩获了大会最佳论文奖,这也是中国企业首次获此殊荣。
阿里云与上海交大合作论文获大会最佳论文奖
FAST(Conference on File and Storage Technologies)创办于2002年,是由美国高等计算系统协会(USENIX)和美国计算机学会操作系统专业组织(ACM SIGOPS)联合组织的聚焦存储领域的顶级国际会议,代表了计算机存储领域的国际最高水平。
创办二十多年来,FAST推动了如软硬件结合、RAID、闪存文件系统、非易失内存技术和分布式存储等多项存储相关技术的发展。
本次阿里云入选的 4 篇论文主要是围绕飞天云计算操作系统核心组件之一的飞天盘古分布式文件存储系统,深入地描述了过去几年在多个领域的创新以及为云存储产品提升的竞争力。
使用通用的服务器和磁盘介质,在超大规模下解决数据不丢不错和高可用的难题,让存储更加稳定可靠,拥有更大的容量和更高的性能,可承载不同的应用负载, 覆盖低延迟、高吞吐、高并发等多种复杂场景。
阿里云存储资深专家储道介绍阿里云盘古分布式存储系统论文
#01
在《More Than Capacity: Performance-oriented Evolution of Pangu in Alibaba》中:
阿里云介绍了自研的盘古分布式文件存储的新一代 2.0 系统的创新和演进。
通过基于介质优化的存储引擎、高性能存储网络、全分布式元数据的管理、长尾延迟优化等技术,极致释放硬件的能力,利用 NVMe SSD和 RDMA 网络的低延迟高带宽性能,降低软件系统的开销,提高性能的稳定性。
基于盘古 2.0,阿里云实现了百微秒级平均延迟、毫秒级长尾延迟,以及单存储节点打满200Gbps网络的IOPS处理能力,有力支撑数据库、搜索和推荐等众多性能敏感型业务。
#02
在《Perseus: A Fail-Slow Detection Framework for Cloud Storage Systems》中:
阿里云与上海交通大学共同提出了一种精确的慢盘检测框架Perseus,可将节点P9999长尾延迟平均降低33%-64%,保证业务平稳运行。
借助 Perseus 对慢盘检测的主动性和精确性,不仅提供了高性能高可靠的存储,也保障了性能的稳定性,极大减少了性能的抖动,为客户提供了可预期的平滑的服务质量保障。
本文因“其在理论研究上的创新性和实际落地应用的巨大价值”,被大会评为 FAST 2023 的最佳论文。该项研究由阿里巴巴创新研究计划(AIR)支持,旨在促进计算机科学及相关领域的前沿研究,加速研究成果的应用落地。
阿里云存储专家答案介绍SMRStore新存储引擎论文
#03
在名为《SMRSTORE: A Storage Engine for Cloud Object Storage on HM-SMR Drives》论文中:
阿里云介绍了叠瓦式磁盘HM-SMR的高性能存储引擎——SMRStore,通过数据冷热分离、端到端协同设计、流量打散等技术,大幅降低SMR磁盘上的GC开销,提供不亚于传统CMR磁盘的性能。
基于 SMRStore 存储引擎的对象存储 OSS,标准和低频类型的存储规格规模化使用 SMR 磁盘,保障性能和稳定性的同时,降低了存储成本。
#04
面向云原生大规模分布式存储的需求,在《Fisc: A Large-scale Cloud-native-oriented File System 》论文中:
阿里云提到了面向云原生的大规模文件系统Fisc,通过文件系统客户端的硬件卸载技术高效支持多容器的高并发访问,降低容器CPU和内存的消耗,节约 20% 的资源;
同时首次提出基于CIPU软硬件协同的分布式存储应用层网关,将大数据计算、AI训练等业务的存储访问平均延迟降低到百微秒级别,P999延迟优化到毫秒级别,展示了从 IO 虚拟化、多租户隔离、高性能网络、和高性能存储系统的端到端的全栈优化技术。
阿里云存储团队亮相USENIX FAST 2023
此外,盘古在分布式数据冗余算法方面也进行了持续的创新,支持跨数据中心、跨地域的多数据中心容灾策略,数据可靠性达到12个9,可用性高达5个9。在高性能存储网络方面也积累了一系列创新成果,自研的高性能RDMA存储网络(SIGCOMM 2022),HPCC流控算法(SIGCOMM 2019),RDMA网络的大规模实践和优化(NSDI 2021),引领了云存储进入微秒延迟时代。
今天的阿里云盘古分布式存储已经广泛部署在阿里云全球近百个可用区,通过块存储EBS、对象存储OSS、文件存储NAS、文件存储CPFS、表格存储Tablestore、日志服务SLS、网盘与相册服务PDS、备份容灾等服务云上数百万的客户,覆盖政企、互联网、金融、零售、制造、医疗等千行百业。