再创佳绩!阿里云4篇论文入选顶会FAST 2023

简介: 再创佳绩!阿里云4篇论文入选顶会FAST 2023


2月21日至23日,计算机体系结构顶会USENIX FAST 2023在美国圣克拉拉召开,阿里云4篇论文被顶会收录,涉及分布式存储架构、云原生存储、用户态存储引擎等多个领域。


其中,《Perseus:A Fail-Slow Detection Framework for Cloud Storage Systems》一文还斩获了大会最佳论文奖,这也是中国企业首次获此殊荣。


阿里云与上海交大合作论文获大会最佳论文奖


FAST(Conference on File and Storage Technologies)创办于2002年,是由美国高等计算系统协会(USENIX)和美国计算机学会操作系统专业组织(ACM SIGOPS)联合组织的聚焦存储领域的顶级国际会议,代表了计算机存储领域的国际最高水平。


创办二十多年来,FAST推动了如软硬件结合、RAID、闪存文件系统、非易失内存技术和分布式存储等多项存储相关技术的发展。


本次阿里云入选的 4 篇论文主要是围绕飞天云计算操作系统核心组件之一的飞天盘古分布式文件存储系统,深入地描述了过去几年在多个领域的创新以及为云存储产品提升的竞争力。


使用通用的服务器和磁盘介质,在超大规模下解决数据不丢不错和高可用的难题,让存储更加稳定可靠,拥有更大的容量和更高的性能,可承载不同的应用负载, 覆盖低延迟、高吞吐、高并发等多种复杂场景。


阿里云存储资深专家储道介绍阿里云盘古分布式存储系统论文


#01

在《More Than Capacity: Performance-oriented Evolution of Pangu in Alibaba》中:

阿里云介绍了自研的盘古分布式文件存储的新一代 2.0 系统的创新和演进。


通过基于介质优化的存储引擎、高性能存储网络、全分布式元数据的管理、长尾延迟优化等技术,极致释放硬件的能力,利用 NVMe SSD和 RDMA 网络的低延迟高带宽性能,降低软件系统的开销,提高性能的稳定性。


基于盘古 2.0,阿里云实现了百微秒级平均延迟、毫秒级长尾延迟,以及单存储节点打满200Gbps网络的IOPS处理能力,有力支撑数据库、搜索和推荐等众多性能敏感型业务。


#02

在《Perseus: A Fail-Slow Detection Framework for Cloud Storage Systems》中:

阿里云与上海交通大学共同提出了一种精确的慢盘检测框架Perseus,可将节点P9999长尾延迟平均降低33%-64%,保证业务平稳运行。


借助 Perseus 对慢盘检测的主动性和精确性,不仅提供了高性能高可靠的存储,也保障了性能的稳定性,极大减少了性能的抖动,为客户提供了可预期的平滑的服务质量保障。


本文因“其在理论研究上的创新性和实际落地应用的巨大价值”,被大会评为 FAST 2023 的最佳论文。该项研究由阿里巴巴创新研究计划(AIR)支持,旨在促进计算机科学及相关领域的前沿研究,加速研究成果的应用落地。


阿里云存储专家答案介绍SMRStore新存储引擎论文


#03

在名为《SMRSTORE: A Storage Engine for Cloud Object Storage on HM-SMR Drives》论文中:

阿里云介绍了叠瓦式磁盘HM-SMR的高性能存储引擎——SMRStore,通过数据冷热分离、端到端协同设计、流量打散等技术,大幅降低SMR磁盘上的GC开销,提供不亚于传统CMR磁盘的性能。


基于 SMRStore 存储引擎的对象存储 OSS,标准和低频类型的存储规格规模化使用 SMR 磁盘,保障性能和稳定性的同时,降低了存储成本。


#04

面向云原生大规模分布式存储的需求,在《Fisc: A Large-scale Cloud-native-oriented File System 》论文中:

阿里云提到了面向云原生的大规模文件系统Fisc,通过文件系统客户端的硬件卸载技术高效支持多容器的高并发访问,降低容器CPU和内存的消耗,节约 20% 的资源;


同时首次提出基于CIPU软硬件协同的分布式存储应用层网关,将大数据计算、AI训练等业务的存储访问平均延迟降低到百微秒级别,P999延迟优化到毫秒级别,展示了从 IO 虚拟化、多租户隔离、高性能网络、和高性能存储系统的端到端的全栈优化技术。


阿里云存储团队亮相USENIX FAST 2023


此外,盘古在分布式数据冗余算法方面也进行了持续的创新,支持跨数据中心、跨地域的多数据中心容灾策略,数据可靠性达到12个9,可用性高达5个9。在高性能存储网络方面也积累了一系列创新成果,自研的高性能RDMA存储网络(SIGCOMM 2022),HPCC流控算法(SIGCOMM 2019),RDMA网络的大规模实践和优化(NSDI 2021),引领了云存储进入微秒延迟时代。


今天的阿里云盘古分布式存储已经广泛部署在阿里云全球近百个可用区,通过块存储EBS、对象存储OSS、文件存储NAS、文件存储CPFS、表格存储Tablestore、日志服务SLS、网盘与相册服务PDS、备份容灾等服务云上数百万的客户,覆盖政企、互联网、金融、零售、制造、医疗等千行百业。


目录
相关文章
|
存储 调度 块存储
阿里云连续两年斩获全球存储顶会FAST最佳论文
阿里云连续两年斩获全球存储顶会FAST最佳论文
934 0
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
存储 固态存储 Java
用软硬协同设计下的飞天盘古降低存储系统开销
历经 15 载,如今的飞天盘古系统已迭代至第三代,数千万行代码和 1,000 余项专利,从大规模、到高性能、到高效能的分布式存储系统的演进,更高效地让数据中心成为一台计算机。
140354 141
用软硬协同设计下的飞天盘古降低存储系统开销
|
9月前
|
存储 运维 安全
盘古分布式存储系统的稳定性实践
本文介绍了阿里云飞天盘古分布式存储系统的稳定性实践。盘古作为阿里云的核心组件,支撑了阿里巴巴集团的众多业务,确保数据高可靠性、系统高可用性和安全生产运维是其关键目标。文章详细探讨了数据不丢不错、系统高可用性的实现方法,以及通过故障演练、自动化发布和健康检查等手段保障生产安全。总结指出,稳定性是一项系统工程,需要持续迭代演进,盘古经过十年以上的线上锤炼,积累了丰富的实践经验。
677 7
|
9月前
|
存储 人工智能 缓存
面向AI的存储软硬结合实践和创新
本次分享的主题是面向AI的存储软硬结合实践和创新,由阿里云智能集团专家袁茂军、王正勇和常存银主讲。内容涵盖三大板块:自研存储部件设计及实践、自研存储服务器设计及实践、以及面向AI场景的存储软硬一体解决方案及实践。重点介绍AliFlash系列存储部件的演进与优化,包括QLC SSD的设计挑战与解决方案,并探讨了高性能存储服务器在AI场景中的应用与未来发展方向。通过软硬件深度融合,旨在提升AI业务的性能与效率,降低总拥有成本(TCO)。
437 7
|
存储 调度 块存储
十二年磨一剑:三代架构演进,打造高性能、低成本的块存储!
上周,全球计算机存储顶会USENIX FAST 2024 在美国加州圣克拉拉召开,继去年获得国内首个FAST最佳论文奖后,凭借在分布式块存储上的创新,阿里云新作再次斩获FAST大会最佳论文奖。这也是国内唯一一家连续两年获得FAST最佳论文奖的科技公司。
106605 105
io_uring之liburing库安装
io_uring之liburing库安装
1147 0
|
存储 网络协议 容灾
降低存储网络55% 延迟!阿里云存储论文入选计算机顶会
凭借在规模化部署和应用模型上的创新,阿里云存储团队发表的技术论文《Deploying User-space TCP at Cloud Scale with LUNA》被 USENIX ATC'23 收录。
1554 4
降低存储网络55% 延迟!阿里云存储论文入选计算机顶会
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在故障预测中的应用
【6月更文挑战第8天】随着人工智能技术的飞速发展,其在IT运维领域的应用也日益广泛。本文将探讨AI技术如何助力运维团队实现故障的智能预测,提高系统稳定性和业务连续性。