LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革

简介: LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革 近些年,随着NVME闪存等存储技术的发展,单存储设备IO带宽已达到GB/S,延迟降低至微秒数量级,而下一代内存级非易事存储介质如Intel 3D XPoint将进一步提升存储介质性能。从整体上看,数据中心已经由传统的机械硬盘毫秒时代过渡到存储新介质的微秒时代。在性能大幅提升的同时,节点存储容量也急剧增加,达到几十TB量级。节点存储性能和

LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革

近些年,随着NVME闪存等存储技术的发展,单存储设备IO带宽已达到GB/S,延迟降低至微秒数量级,而下一代内存级非易事存储介质如Intel 3D XPoint将进一步提升存储介质性能。从整体上看,数据中心已经由传统的机械硬盘毫秒时代过渡到存储新介质的微秒时代。在性能大幅提升的同时,节点存储容量也急剧增加,达到几十TB量级。节点存储性能和容量的飞速发展,对分布式存储系统节点间的网络通信性能提出了更高的要求,因此,高性能网络技术如RDMA(Remote Direct Memory Access)技术开始应用于数据中心,RDMA技术起源于高性能计算领域(如太湖之光超级计算机),其可通过相对定制的流控机制实现高效的节点间通信。

存储和网络新技术的应用导致数据中心基层物理架构的变革,“世异时移,变法宜矣”,《吕氏春秋》的经典词句说明拥抱变化的重要性。盘古分布式存储起源于阿里云飞天系统,已历时10余年,作为自主研发的分布式存储系统,其是阿里云核心组件之一,支撑阿里云对象存储、大数据计算、块存储、文件存储等多种关键存储业务。随着发展,它越来越成为整个阿里巴巴的存储平台,支持天猫、淘宝、支付宝等更多的业务。新一代盘古存储系统充分利用NVME和RDMA等新技术,实现了高性能的存储服务,其端到端三副本写的延迟低于30微秒,逼近底层硬件的理论物理延迟,而基于盘古存储系统的ESSD云盘可以达到100us、1M IOPS的性能。

在今年的阿里618大促中,盘古作为基础存储,为天猫、淘宝电商数据库以及阿里云块存储等阿里巴巴核心业务提供了服务,而在此之前,国内外还从未有公司将RDMA&NVME等新技术应用于线上大规模数据库和云计算块存储等核心业务,盘古首次实现了这些技术在线上核心业务的大规模应用。

盘古分布式存储系统

盘古存储系统超高性能的获得离不开对存储和网络性能的极致挖掘,特别是RDMA技术的研发。盘古选择RDMA的动机包含性能和语义两个方面。在性能方面,RDMA相对于传统TCP通信,由于RDMA网卡硬件负责处理通信协议,其在延迟和CPU利用率上占有优势。点到点RDMA延迟接近1us,而同等条件下的TCP要达到20us以上;RDMA可利用一个CPU处理器核可以打满网络带宽,而TCP需要至少4个处理器核心,RDMA的CPU利用率明显高于TCP。另一方面,从语义上来说,RDMA提供了一种节点A的数据可靠发送至节点B的通信机制,并实现了远端内存访问语义。由于可靠传输,并且实现了内存语义,这使得远端处理部件(CPU、FPGA、GPU等)可以直接对一段内存编址范围内的数据进行处理。与之对应,由于TCP是字节流语义,接收方很难断定处理数据的边界,从而很难直接对数据进行加工,并且需要借助处理单元进行解析。随着大规模高性能设备的发展如AEP新存储介质和硬件协处理等专用处理芯片的发展,远端直接对数据进行处理成为盘古存储的迫切需求,因此RDMA这方面的优势更为突出。盘古分布式系统通过全用户态系统软件栈,充分利用RDMA特性,全链路盘古软件库开消低于3us,从而获得了高效的IO性能。

盘古全用户态软件栈

RDMA网络性能突出,在实际中,出于成本等因素的考虑,区别于高性能计算领域的Infiniband RDMA技术,目前数据中心广泛采用RDMA ROCE技术。ROCE RDMA技术是在可丢包的以太网上,通过“打补丁”的方式,实现无损不丢包的通信传输。在可丢包的网络实现不丢包,这本身引入了较大的风险,相对于以前的可丢包实现,其更容易引发网络系统性的风险,这也是ROCE RDMA在国内外数据中心应用的难题。简单类比一下,如果把RDMA比做高速公路,那么TCP类似于省道。高速公路采取独立的隔离机制(专用隔离的封闭道路)和专用的通行规则以到达高效通行的目的;省道更多是满足出发地和目的地之间的可达性,实现不同地点的连通,虽然其也追求高效性,但出于成本等因素的妥协,其通行性并没有严格的保证。由于独立隔离且高速运行,高速公路对于风雪、雾气等情况下的风险明显大于省道,RDMA与之类似,在高性能的同时存在较大的风险。此外,针对ROCE RDMA,不同厂商网卡和交换机的RDMA技术经验还处于积累阶段,流控策略和参数配置也存在较多的问题,因此从ROCE RDMA的网络承载者网卡和交换机来说,ROCE RDMA风险也较大。虽然ROCE RDMA存在较大的风险,盘古系统所支持的业务如电商和阿里云存储等,需要提供365*24的稳定运行,盘古面临这些风险,需要如其名做到稳如磐石,杜绝丝毫风险。在实际实现中,盘古和阿里网络团队采用软硬件协同的方法,在保证性能的同时很大程度上降低了ROCE RDMA的风险。

通过对RDMA极致性能的追求和针对可靠性的软硬件协同设计,盘古实现了基于RDMA的高效且稳定实现,并首次应用于618阿里巴巴大促数据库和阿里云块存储等核心关键业务。此外,针对云计算下的RDMA QOS服务质量、网络存储融合、基于RDMA的近存储计算等方面,盘古也展开了一系列技术研发,后续盘古将支持更多的阿里巴巴业务,并在双十一大促中进一步检验和推广,从而为用户提供高效稳定的存储服务。

目录
相关文章
|
9天前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
177 4
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
王耀恒:从网络营销老兵到GEO技术布道者
在王耀恒看来,AI时代的技术竞争已从“信息不对称”转向“系统化应用能力”。他的GEO课程体系正是这一理念的体现——技术可以被复制,但深度实践验证的系统框架、认知升级路径和教学转化艺术却构成了难以逾越的壁垒。
|
13天前
|
弹性计算 安全 应用服务中间件
阿里云渠道商:怎么配置阿里云网络ACL?
阿里云网络ACL是子网级无状态防火墙,支持精准流量控制、规则热生效且免费使用。本文详解5步配置流程,助您实现Web与数据库层的安全隔离,提升云上网络安全。
|
19天前
|
人工智能 安全 架构师
2025云栖大会 | 阿里云网络技术Session主题资料和视频回放归档
2025年9月24日-26日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化带来技术、产品和服务升级,以及全新的云网络产品生态合作计划发布。
249 0
|
18天前
|
机器学习/深度学习 人工智能 监控
上海拔俗AI软件定制:让技术真正为你所用,拔俗网络这样做
在上海,企业正通过AI软件定制破解通用化难题。该模式以业务场景为核心,量身打造智能解决方案,涵盖场景化模型开发、模块化架构设计与数据闭环优化三大技术维度,推动技术与业务深度融合,助力企业实现高效、可持续的数字化转型。
|
20天前
|
弹性计算 网络安全 数据中心
阿里云创建专有网络VPC的【IPv4网段】如何选择?有什么区别?
阿里云VPC创建时需选IPv4网段,默认提供10.0.0.0/16、172.16.0.0/16、192.168.0.0/16,三者无功能差异。若仅单VPC且不连本地数据中心,可任选其一,确保不冲突即可。多VPC或混合云场景需规划避免IP重叠。不支持100.64.0.0/10等特殊网段。建议结合IPAM进行地址管理。
|
2月前
|
消息中间件 监控 Java
Apache Kafka 分布式流处理平台技术详解与实践指南
本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统,Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制,帮助开发者构建可靠、可扩展的实时数据流处理系统。
261 4
|
1月前
|
机器学习/深度学习 监控 PyTorch
68_分布式训练技术:DDP与Horovod
随着大型语言模型(LLM)规模的不断扩大,从早期的BERT(数亿参数)到如今的GPT-4(万亿级参数),单卡训练已经成为不可能完成的任务。分布式训练技术应运而生,成为大模型开发的核心基础设施。2025年,分布式训练技术已经发展到相当成熟的阶段,各种优化策略和框架不断涌现,为大模型训练提供了强大的支持。
|
2月前
|
JSON 监控 Java
Elasticsearch 分布式搜索与分析引擎技术详解与实践指南
本文档全面介绍 Elasticsearch 分布式搜索与分析引擎的核心概念、架构设计和实践应用。作为基于 Lucene 的分布式搜索引擎,Elasticsearch 提供了近实时的搜索能力、强大的数据分析功能和可扩展的分布式架构。本文将深入探讨其索引机制、查询 DSL、集群管理、性能优化以及与各种应用场景的集成,帮助开发者构建高性能的搜索和分析系统。
188 0
|
11月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
242 17