再创佳绩!阿里云4篇论文入选顶会FAST 2023

简介: 2月21日至23日,计算机体系结构顶会USENIX FAST 2023在美国圣克拉拉召开,阿里云4篇论文被顶会收录,涉及分布式存储架构、云原生存储、用户态存储引擎等多个领域。其中,《Perseus:A Fail-Slow Detection Framework for Cloud Storage Systems》一文还斩获了大会最佳论文奖,这也是中国企业首次获此殊荣。

2月21日至23日,计算机体系结构顶会USENIX FAST 2023在美国圣克拉拉召开,阿里云4篇论文被顶会收录,涉及分布式存储架构、云原生存储、用户态存储引擎等多个领域。

其中,《Perseus:A Fail-Slow Detection Framework for Cloud Storage Systems》一文还斩获了大会最佳论文奖,这也是中国企业首次获此殊荣。

image.png
阿里云与上海交大合作论文获大会最佳论文奖

FAST(Conference on File and Storage Technologies)创办于2002年,是由美国高等计算系统协会(USENIX)和美国计算机学会操作系统专业组织(ACM SIGOPS)联合组织的聚焦存储领域的顶级国际会议,代表了计算机存储领域的国际最高水平。

创办二十多年来,FAST推动了如软硬件结合、RAID、闪存文件系统、非易失内存技术和分布式存储等多项存储相关技术的发展。

本次阿里云入选的 4 篇论文主要是围绕飞天云计算操作系统核心组件之一的飞天盘古分布式文件存储系统,深入地描述了过去几年在多个领域的创新以及为云存储产品提升的竞争力。

使用通用的服务器和磁盘介质,在超大规模下解决数据不丢不错和高可用的难题,让存储更加稳定可靠,拥有更大的容量和更高的性能,可承载不同的应用负载, 覆盖低延迟、高吞吐、高并发等多种复杂场景。

image.png
阿里云存储资深专家储道介绍阿里云盘古分布式存储系统论文

#01
在《More Than Capacity: Performance-oriented Evolution of Pangu in Alibaba》中:阿里云介绍了自研的盘古分布式文件存储的新一代 2.0 系统的创新和演进。

通过基于介质优化的存储引擎、高性能存储网络、全分布式元数据的管理、长尾延迟优化等技术,极致释放硬件的能力,利用 NVMe SSD和 RDMA 网络的低延迟高带宽性能,降低软件系统的开销,提高性能的稳定性。

基于盘古 2.0,阿里云实现了百微秒级平均延迟、毫秒级长尾延迟,以及单存储节点打满200Gbps网络的IOPS处理能力,有力支撑数据库、搜索和推荐等众多性能敏感型业务。

#02
在《Perseus: A Fail-Slow Detection Framework for Cloud Storage Systems》中:阿里云与上海交通大学共同提出了一种精确的慢盘检测框架Perseus,可将节点P9999长尾延迟平均降低33%-64%,保证业务平稳运行。

借助 Perseus 对慢盘检测的主动性和精确性,不仅提供了高性能高可靠的存储,也保障了性能的稳定性,极大减少了性能的抖动,为客户提供了可预期的平滑的服务质量保障。

本文因“其在理论研究上的创新性和实际落地应用的巨大价值”,被大会评为 FAST 2023 的最佳论文。该项研究由阿里巴巴创新研究计划(AIR)支持,旨在促进计算机科学及相关领域的前沿研究,加速研究成果的应用落地。

image.png
阿里云存储专家答案介绍SMRStore新存储引擎论文

#03
在名为《SMRSTORE: A Storage Engine for Cloud Object Storage on HM-SMR Drives》论文中:阿里云介绍了叠瓦式磁盘HM-SMR的高性能存储引擎——SMRStore,通过数据冷热分离、端到端协同设计、流量打散等技术,大幅降低SMR磁盘上的GC开销,提供不亚于传统CMR磁盘的性能。

基于 SMRStore 存储引擎的对象存储 OSS,标准和低频类型的存储规格规模化使用 SMR 磁盘,保障性能和稳定性的同时,降低了存储成本。

#04
面向云原生大规模分布式存储的需求,在《Fisc: A Large-scale Cloud-native-oriented File System 》论文中:阿里云提到了面向云原生的大规模文件系统Fisc,通过文件系统客户端的硬件卸载技术高效支持多容器的高并发访问,降低容器CPU和内存的消耗,节约 20% 的资源;

同时首次提出基于CIPU软硬件协同的分布式存储应用层网关,将大数据计算、AI训练等业务的存储访问平均延迟降低到百微秒级别,P999延迟优化到毫秒级别,展示了从 IO 虚拟化、多租户隔离、高性能网络、和高性能存储系统的端到端的全栈优化技术。

image.png
阿里云存储团队亮相USENIX FAST 2023

此外,盘古在分布式数据冗余算法方面也进行了持续的创新,支持跨数据中心、跨地域的多数据中心容灾策略,数据可靠性达到12个9,可用性高达5个9。在高性能存储网络方面也积累了一系列创新成果,自研的高性能RDMA存储网络(SIGCOMM 2022),HPCC流控算法(SIGCOMM 2019),RDMA网络的大规模实践和优化(NSDI 2021),引领了云存储进入微秒延迟时代。

今天的阿里云盘古分布式存储已经广泛部署在阿里云全球近百个可用区,通过块存储EBS、对象存储OSS、文件存储NAS、文件存储CPFS、表格存储Tablestore、日志服务SLS、网盘与相册服务PDS、备份容灾等服务云上数百万的客户,覆盖政企、互联网、金融、零售、制造、医疗等千行百业。

本文转自阿里云公众号2023-02-25发布的《再创佳绩!阿里云4篇论文入选顶会FAST 2023》

相关文章
|
存储 调度 块存储
阿里云连续两年斩获全球存储顶会FAST最佳论文
阿里云连续两年斩获全球存储顶会FAST最佳论文
1526 0
|
存储 人工智能 安全
智存跃迁,阿里云存储面向 AI 升级全栈数据存储能力
一文总览阿里云存储产品创新与进展!
1486 0
|
存储 调度 块存储
十二年磨一剑:三代架构演进,打造高性能、低成本的块存储!
上周,全球计算机存储顶会USENIX FAST 2024 在美国加州圣克拉拉召开,继去年获得国内首个FAST最佳论文奖后,凭借在分布式块存储上的创新,阿里云新作再次斩获FAST大会最佳论文奖。这也是国内唯一一家连续两年获得FAST最佳论文奖的科技公司。
107400 105
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
|
存储 人工智能 安全
CPFS深度解析:并行文件存储加速AI创新
在生成式AI的大潮中,并行文件系统作为高性能数据底座,为AI算力提供高吞吐、低延迟的数据存储服务。在本话题中,我们将介绍阿里云并行文件存储CPFS针对AI智算场景而提供的产品能力演进与更新,深入讲解在性能、成本、稳定、安全等方面的技术创新。
1519 0
|
存储 分布式计算 Hadoop
ChunkServer 原理与架构详解
【8月更文第30天】在分布式文件系统中,ChunkServer 是一个重要的组件,负责存储文件系统中的数据块(chunks)。ChunkServer 的设计和实现对于确保数据的高可用性、一致性和持久性至关重要。本文将深入探讨 ChunkServer 的核心原理和内部架构设计,并通过代码示例来说明其实现细节。
847 1
|
存储 运维 安全
盘古分布式存储系统的稳定性实践
本文介绍了阿里云飞天盘古分布式存储系统的稳定性实践。盘古作为阿里云的核心组件,支撑了阿里巴巴集团的众多业务,确保数据高可靠性、系统高可用性和安全生产运维是其关键目标。文章详细探讨了数据不丢不错、系统高可用性的实现方法,以及通过故障演练、自动化发布和健康检查等手段保障生产安全。总结指出,稳定性是一项系统工程,需要持续迭代演进,盘古经过十年以上的线上锤炼,积累了丰富的实践经验。
1372 7
|
存储 缓存 人工智能
深度解析CPFS 在 LLM 场景下的高性能存储技术
本文深入探讨了CPFS在大语言模型(LLM)训练中的端到端性能优化策略,涵盖计算端缓存加速、智能网卡加速、数据并行访问及数据流优化等方面。重点分析了大模型对存储系统的挑战,包括计算规模扩大、算力多样性及数据集增长带来的压力。通过分布式P2P读缓存、IO加速、高性能存算通路技术以及智能数据管理等手段,显著提升了存储系统的吞吐量和响应速度,有效提高了GPU利用率,降低了延迟,从而加速了大模型的训练进程。总结了CPFS在AI训练场景中的创新与优化实践,为未来大模型发展提供了有力支持。
|
存储 人工智能 安全
OSS 深度解析:Data + AI 时代的对象存储
在 Data + AI 时代,随着大数据分析和 AI/ML 工作负载的进一步融合,对象存储 OSS 作为面向 AI 时代的数据基础设施,迎来了新的挑战与创新机遇。本话题我们将会介绍对象存储的能力创新,深度解读对象存储在实现稳定、安全、高性能和低成本背后的技术进展,并展望未来 AI 驱动趋势下的技术发展方向。
2065 2

热门文章

最新文章