LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革

简介: LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革 近些年,随着NVME闪存等存储技术的发展,单存储设备IO带宽已达到GB/S,延迟降低至微秒数量级,而下一代内存级非易事存储介质如Intel 3D XPoint将进一步提升存储介质性能。从整体上看,数据中心已经由传统的机械硬盘毫秒时代过渡到存储新介质的微秒时代。在性能大幅提升的同时,节点存储容量也急剧增加,达到几十TB量级。节点存储性能和

LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革

近些年,随着NVME闪存等存储技术的发展,单存储设备IO带宽已达到GB/S,延迟降低至微秒数量级,而下一代内存级非易事存储介质如Intel 3D XPoint将进一步提升存储介质性能。从整体上看,数据中心已经由传统的机械硬盘毫秒时代过渡到存储新介质的微秒时代。在性能大幅提升的同时,节点存储容量也急剧增加,达到几十TB量级。节点存储性能和容量的飞速发展,对分布式存储系统节点间的网络通信性能提出了更高的要求,因此,高性能网络技术如RDMA(Remote Direct Memory Access)技术开始应用于数据中心,RDMA技术起源于高性能计算领域(如太湖之光超级计算机),其可通过相对定制的流控机制实现高效的节点间通信。

存储和网络新技术的应用导致数据中心基层物理架构的变革,“世异时移,变法宜矣”,《吕氏春秋》的经典词句说明拥抱变化的重要性。盘古分布式存储起源于阿里云飞天系统,已历时10余年,作为自主研发的分布式存储系统,其是阿里云核心组件之一,支撑阿里云对象存储、大数据计算、块存储、文件存储等多种关键存储业务。随着发展,它越来越成为整个阿里巴巴的存储平台,支持天猫、淘宝、支付宝等更多的业务。新一代盘古存储系统充分利用NVME和RDMA等新技术,实现了高性能的存储服务,其端到端三副本写的延迟低于30微秒,逼近底层硬件的理论物理延迟,而基于盘古存储系统的ESSD云盘可以达到100us、1M IOPS的性能。

在今年的阿里618大促中,盘古作为基础存储,为天猫、淘宝电商数据库以及阿里云块存储等阿里巴巴核心业务提供了服务,而在此之前,国内外还从未有公司将RDMA&NVME等新技术应用于线上大规模数据库和云计算块存储等核心业务,盘古首次实现了这些技术在线上核心业务的大规模应用。

盘古分布式存储系统

盘古存储系统超高性能的获得离不开对存储和网络性能的极致挖掘,特别是RDMA技术的研发。盘古选择RDMA的动机包含性能和语义两个方面。在性能方面,RDMA相对于传统TCP通信,由于RDMA网卡硬件负责处理通信协议,其在延迟和CPU利用率上占有优势。点到点RDMA延迟接近1us,而同等条件下的TCP要达到20us以上;RDMA可利用一个CPU处理器核可以打满网络带宽,而TCP需要至少4个处理器核心,RDMA的CPU利用率明显高于TCP。另一方面,从语义上来说,RDMA提供了一种节点A的数据可靠发送至节点B的通信机制,并实现了远端内存访问语义。由于可靠传输,并且实现了内存语义,这使得远端处理部件(CPU、FPGA、GPU等)可以直接对一段内存编址范围内的数据进行处理。与之对应,由于TCP是字节流语义,接收方很难断定处理数据的边界,从而很难直接对数据进行加工,并且需要借助处理单元进行解析。随着大规模高性能设备的发展如AEP新存储介质和硬件协处理等专用处理芯片的发展,远端直接对数据进行处理成为盘古存储的迫切需求,因此RDMA这方面的优势更为突出。盘古分布式系统通过全用户态系统软件栈,充分利用RDMA特性,全链路盘古软件库开消低于3us,从而获得了高效的IO性能。

盘古全用户态软件栈

RDMA网络性能突出,在实际中,出于成本等因素的考虑,区别于高性能计算领域的Infiniband RDMA技术,目前数据中心广泛采用RDMA ROCE技术。ROCE RDMA技术是在可丢包的以太网上,通过“打补丁”的方式,实现无损不丢包的通信传输。在可丢包的网络实现不丢包,这本身引入了较大的风险,相对于以前的可丢包实现,其更容易引发网络系统性的风险,这也是ROCE RDMA在国内外数据中心应用的难题。简单类比一下,如果把RDMA比做高速公路,那么TCP类似于省道。高速公路采取独立的隔离机制(专用隔离的封闭道路)和专用的通行规则以到达高效通行的目的;省道更多是满足出发地和目的地之间的可达性,实现不同地点的连通,虽然其也追求高效性,但出于成本等因素的妥协,其通行性并没有严格的保证。由于独立隔离且高速运行,高速公路对于风雪、雾气等情况下的风险明显大于省道,RDMA与之类似,在高性能的同时存在较大的风险。此外,针对ROCE RDMA,不同厂商网卡和交换机的RDMA技术经验还处于积累阶段,流控策略和参数配置也存在较多的问题,因此从ROCE RDMA的网络承载者网卡和交换机来说,ROCE RDMA风险也较大。虽然ROCE RDMA存在较大的风险,盘古系统所支持的业务如电商和阿里云存储等,需要提供365*24的稳定运行,盘古面临这些风险,需要如其名做到稳如磐石,杜绝丝毫风险。在实际实现中,盘古和阿里网络团队采用软硬件协同的方法,在保证性能的同时很大程度上降低了ROCE RDMA的风险。

通过对RDMA极致性能的追求和针对可靠性的软硬件协同设计,盘古实现了基于RDMA的高效且稳定实现,并首次应用于618阿里巴巴大促数据库和阿里云块存储等核心关键业务。此外,针对云计算下的RDMA QOS服务质量、网络存储融合、基于RDMA的近存储计算等方面,盘古也展开了一系列技术研发,后续盘古将支持更多的阿里巴巴业务,并在双十一大促中进一步检验和推广,从而为用户提供高效稳定的存储服务。

相关实践学习
块存储快速入门
块存储是阿里云为云服务器ECS提供的块设备产品。通过体验挂载数据盘、分区格式化数据盘(Linux)、创建云盘快照、重新初始化数据盘、使用快照回滚云盘和卸载数据盘等功能,带您快速入门块存储。
目录
相关文章
|
5天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【9月更文挑战第6天】随着互联网技术的飞速发展,云计算已成为企业和个人数据存储和处理的首选方案。然而,云服务的安全性问题也日益凸显。本文将深入探讨云计算环境下的网络安全挑战,包括数据泄露、身份验证、访问控制等关键问题,并提供相应的解决策略。通过分析云服务模型、网络攻击手段及防御机制,我们旨在为读者提供一套完整的云计算安全指南。
|
8天前
|
人工智能 数据中心 云计算
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
9月3日,在2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等国内外十余家业界伙伴发起AI芯片互连开放生态ALS(ALink System)。
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
|
1天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
在数字化时代,云计算已成为企业和个人数据存储、处理的重要手段。然而,随着云服务的广泛应用,网络安全问题也日益凸显。本文将探讨云计算与网络安全的关系,分析云服务中的安全挑战,并提出相应的信息安全策略。通过深入浅出的方式,旨在帮助读者更好地理解这一复杂而重要的主题。
|
1天前
|
存储 安全 网络安全
云计算与网络安全的融合之路:技术演进与安全挑战
【9月更文挑战第10天】在数字化浪潮的推动下,云计算成为企业信息技术架构的核心。随着服务模型的多样化和应用场景的扩展,云服务的安全性问题日益凸显。本文从云计算的基本概念出发,探讨了网络安全在云计算环境中的重要性,分析了云服务面临的安全威胁,并提出了相应的防护措施。通过深入浅出的方式,旨在为读者提供云计算与网络安全融合的全景视图,强调在享受云计算带来的便利性的同时,如何构建坚固的安全防护体系。
|
6天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的探讨
【9月更文挑战第5天】云计算作为一种新兴的计算模式,已经在全球范围内得到了广泛的应用。然而,随着云计算的快速发展,网络安全问题也日益凸显。本文将从云服务、网络安全、信息安全等方面对云计算与网络安全进行探讨。
39 15
|
2天前
|
存储 安全 网络安全
云计算与网络安全:技术演进与挑战
【9月更文挑战第9天】在数字时代的浪潮中,云计算作为信息技术的一股强大力量,正不断重塑着企业和个人的工作与生活方式。然而,随着云服务的普及和深入,网络安全问题也日益成为制约其发展的关键因素。本文将探讨云计算服务的基本概念、网络安全的重要性以及信息安全技术的发展趋势,旨在为读者提供一个关于云计算与网络安全交织演进的宏观视角,并引发对如何在享受云服务便利的同时保障信息安全的深层次思考。
|
6天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
随着云计算的迅速发展,网络安全问题日益凸显。本文探讨了云计算与网络安全的关系,分析了云服务在提供便利的同时可能带来的安全风险,并提出了相应的防护措施。文章旨在帮助读者理解云计算环境下的网络安全挑战,并提供实用的信息安全策略。
|
8天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与风险防范
【9月更文挑战第3天】本文深入探讨了云计算与网络安全之间的紧密联系,揭示了云服务在提升企业效率的同时可能带来的安全隐患。文章首先介绍了云计算的基础知识,包括其定义、服务模型和部署类型,随后详细分析了网络安全的重要性以及云计算环境下的安全挑战。通过阐述网络攻击的常见方式,本文进一步讨论了如何在云环境中实施有效的安全策略,包括数据加密、访问控制等措施。最后,文章总结了云计算与网络安全的相互影响,并提出了未来研究方向,旨在为读者提供对这一复杂而重要领域的深刻理解。
|
9天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务中的信息安全技术
【9月更文挑战第2天】在数字化时代,云计算成为推动企业创新和效率的关键力量。然而,随之而来的网络安全挑战也日益严峻。本文将深入探讨云计算环境下的网络安全问题,分析云服务中的安全风险,并提供有效的信息安全策略。我们将通过实际案例,展示如何在享受云计算带来的便利的同时,保护数据不受威胁。无论你是IT专业人士还是对云计算感兴趣的读者,这篇文章都将为你提供宝贵的见解和建议。
|
8天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的探讨
【9月更文挑战第3天】本文将探讨云计算与网络安全的关系,包括云服务、网络安全、信息安全等技术领域。我们将分析云计算在网络安全方面的挑战和机遇,并介绍一些常见的网络安全技术和实践。最后,我们将提供一些代码示例来说明如何保护云计算环境中的数据安全。