二、存储行业的变革
1. 存储服务网络的巨变
云计算让原本离散的、依靠渠道实现分发的蒲公英网络演进为具有更高的服务效率、迭代效率、发现效率、运营效率等四大优势的平行网络。这其中,自服务是云计算核心的竞争力之一。
传统IT技术所构建的商业模式不再成立,云计算的自服务能力让企业可以像使用水和电一样使用云计算产品,在可管理性方面有了极大的提升,也避免落入依赖技术和产品外包的服务陷阱。从这个角度来说,相比于强调所有权的公有云,强调使用权的公共云的概念其实更为贴切。
云存储是基于云计算相关技术延伸和发展而来的全新的产品形态。本质上,云计算不是一种计算,而是服务,云存储也不是一种存储,而是一种基于存储功能的服务。
云存储的内核是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。如同云状的广域互联网,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由多个存储设备和服务器所构成的集合体。因此使用云存储时并不是使用某一个存储设备,而是使用整个云存储网络带来的一种数字化服务。
网络互连是分布式存储的基础,随着半导体存储介质的发展,存储网络的问题越来越突出。盘古针对存储网络面临的低延迟、高吞吐、CPU占用等问题,提出了新的存储网络协议及技术架构。具体包括用户态TCP协议栈LUNA、增强型ROCE RDMA以及全自研RDMA网络协议及软硬一体技术架构。通过高性能存储网络技术的演进,带来了如下技术创新:
∙ 解决了分布式存储互连存在的性能问题,盘古构建了全球最大规模的增强型RDMA存储网络,解决传统RDMA面临的PFC等问题。在规模化生产环境下,端至端I/O延迟降低至100us以内,造就了全球性能第一的ESSD云盘。
∙
∙ 降低处理网络协议栈的CPU开销、减少内存拷贝,持续升级数据中心存储物理网络技术架构。将数据中心存储互连提升至2x100Gbps,网络带宽利用率达到90%以上,并向更高速率的网络技术发展。
∙
∙ 自研RDMA存储网络协议栈,发展HPCC (high performance control center)络拥塞控制算法。通过RDMA协议提升硬件卸载的效率,降低网络丢包率,提升存储网络利用率,解决存储场景下面临的Incast等重要问题,促进存储网络向高性能方向演进。
∙
∙ 通过端网协同能力,提升链路探测的效率,降低存储I/O的长尾延迟,提升存储系统的QoS能力,为用户提供极致的SLA。
∙
盘古存储网络相关技术在阿里云得到了规模化,也积累了一系列创新成果,自研的高性能RDMA存储网络(SIGCOMM 2022)、HPCC流控算法(SIGCOMM 2019)、RDMA网络的大规模实践和优化(NSDI 2021),引领了云存储进入微秒延迟时代。