阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中

本文涉及的产品
网络型负载均衡 NLB,每月750个小时 15LCU
公网NAT网关,每月750个小时 15CU
全球加速 GA,每月750个小时 15CU
简介: 阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。

4月底,通信领域顶会 SIGCOMM 2025 公布了本届会议的入选论文,阿里云飞天洛神云网络2项核心技术Nezha(计算网络解耦下的vSwitch池化架构)和Hermes(用户态引导IO的增强型L7云负载均衡器)被SIGCOMM 2025主会双双录用,核心技术再次得到业界认可。阿里云网络坚持自主研发,历经十余年持续深耕云网络,在超高性能网络转发、超大规模网络控制、超高精度网络观测等多个技术领域取得了多个技术突破,相关工作发表在SIGCOMM、NSDI、INFOCOM、MobiCom等国外顶级会议上。自2020年以来,阿里云网络在SIGCOMM/NSDI两大通信领域顶会发表了数十篇论文,国内云服务厂商入选数量排名第一。飞天洛神的各项关键技术分别获得了2021年浙江省技术发明一等奖、2021年中国计算机学会技术发明一等奖、2023年中国计算机学会技术发明二等奖以及2023年中国自动化学会科技进步一等奖,技术领先性得到了国内外重要机构的高度认可。      

image.png    

关于SIGCOMM

SIGCOMM 是 ACM 组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,通常录用率不足20%。SIGCOMM 2025将于2025年9月8-11日在葡萄牙Coimbra举办,此次会议,阿里云洛神云网络团队两项核心技术通过对超大规模云网络运营的理解,将理论与实践结合,将落地部署多年的经验凝聚成长文,获得了国际学者和业界专家的高度认可。下面我们将深入解读一下这两项核心技术为何能从海量投稿论文中脱颖而出。


Nezha——计算网络解耦下的vSwitch池化架构

Nezha: SmartNIC-based Virtual Switch Load Sharing

Nezha是阿里云在vSwitch领域继Achelous和Triton之后的第三篇SIGCOMM论文,聚焦于计算实例的网络资源/性能池化。通过利用集群内所有的SmartNIC作为分布式vSwitch的弹性资源池,充分释放单个vSwitch的性能极限,提供单vSwitch接近裸机的百万级连接新建能力(CPS)、数倍的并发流能力、和数十倍的虚拟网卡密度提升。在此过程中,Nezha创新性地解决了vSwitch集群粒度池化带来的状态管理、容灾及负载均衡等关键挑战。论文详细阐述了阿里云的设计思考与技术实践,为更具弹性的下一代计算、网络解耦的数据中心部署形态提供了新的思路。

| 背景

在云数据中心中,SmartNIC加速的vSwitch被广泛用于为云服务器和容器等计算实例提供高性能网络服务。然而,由于网络虚拟化以及多租带来的开销,云服务器的网络能力长期受限于单个SmartNIC有限的物理资源而远低于裸机(指物理服务器间直连,无overlay,网络非瓶颈)的水平。例如,阿里云基于Triton卸载架构实现了主流云厂商中最高的单卡单服务器43万CPS,仍低于裸机的120万CPS。这就意味着在单个云服务器上,网络可能先于计算CPU达到瓶颈,而无法水平扩展(受限于单卡资源),尤其是一些流量重载的网络中间件服务。

另一方面,在大规模的vSwitch部署运维中,我们还发现了用户对网络与计算资源的消耗是极其不均衡的。就网络而言,只有少数服务器上的用户网络需求高,vSwitch因卡上资源不足面临性能瓶颈(大约占0.01%),但是从集群角度看大量vSwitch/SmartNIC却处于相对空闲的状态(卡上的CPU和内存平均利用只有5%和1.5%)。这种资源“短缺”与“闲置”并存的问题,使得通过部署更高性能的SmartNIC或利用主机资源来解决过载变得成本高昂且效率低下。现有解决方案如Sirius虽然引入专用设备分担压力,但存在硬件成本高、状态同步复杂以及性能开销大的问题。因而我们开始探索寻求SmartNIC网络资源池化解法,让网络彻底摆脱单卡资源限制,与计算资源解耦。

|设计

image.png

在Nezha这篇论文中,我们提出了一种计算网络解耦下的vSwitch池化架构,旨在调动整个集群粒度的SmartNIC资源池,来提升单个vSwitch网络性能上限。其核心思想是通过对vSwitch中虚拟网卡(vNIC)的数据包处理负载进行建模拆解,尽可能地卸载到远端SmartNIC以利用池化的资源。为了避免复杂的状态同步和传输开销,我们按有无状态的原则将vNIC网络负载拆解成前端和后端两部分,前端(无状态规则/流表)卸载到远端资源池,有状态的后端部分则保留在本地卡上进行处理。借助ECMP机制,远端节点池的性能也可以很容易地实现线性伸缩和容灾处理。

|总结和展望

Nezha是阿里云在vSwitch领域多年技术积累的成果,也是阿里云对下一代数据中心部署方向的探索。在计算网络解耦的大背景下,利用整集群的SmartNIC资源构建单节点vSwitch性能水平扩展能力,实现了高性能、低成本的vSwitch池化方案。在实际部署中,Nezha无需新增硬件,仅通过软件优化即可将CPS能力提升3~4.4倍,支持的并发流和vNIC数量分别提升5.04~50.4倍和超过40倍。作为云基础设施中的关键组件,Nezha不仅将vSwitch过载率降低了99.9%,其部署成本和复杂性也极低,为网络功能的进一步扩展提供了灵活性与高性能保障。


Hermes——面向L7 LB的用户态引导I/O事件通知框架

Hermes: Enhancing Layer-7 Cloud Load Balancers with Userspace-Directed I/O Event Notification

在推出无侵入的多租服务网格架构Canal Mesh(SIGCOMM'24)之后,洛神云网络团队再次带来了Canal系列的第二篇文章——Canal dispatcher:Hermes。Hermes聚焦于解决用户在L7层服务接入中面临难题的重磅论文,论文深入剖析了L7负载均衡worker进程之间负载不均的根本原因,并系统性地展示了阿里云在此领域的设计思路与创新实践。相比现有方案,Hermes将worker时延突刺的次数大幅降低了99.8%,同时使得L7负载均衡的云基础设施单位成本降低了18.9%。

| 背景

L7负载均衡(LB)在公有云中基于应用层数据进行流量调度,能够显著提升服务的性能、可用性和扩展性。作为主流云服务商的核心产品之一,阿里云的L7 LB集群已扩展至数十万CPU核心规模,支持每秒数千万次请求(RPS),服务于全球33个区域的租户。

由于L7处理的复杂性(如HTTP路由、加解密、协议转换、压缩等),行业通常基于多核服务器或虚拟机部署。每个worker需要处理来自多个租户的流量,因此防止worker过载是确保租户间性能隔离的关键,而这依赖于高效的负载均衡机制。

L4负载均衡方案的问题

image.png

相较于L4负载均衡,L7连接请求的处理负载差异显著(如加密、压缩或简单的数据拷贝操作),内核无法仅根据队列中的包数量预测每个请求的具体负载。因此,现有基于内核的分发机制(如epoll和reuseport)无法满足L7负载均衡的需求。如上图所示,虽然数据包在NIC队列中分布均匀,但CPU利用率差异显著。这是由于不同连接请求的处理路径不同,处理时间变化较大。

epoll的问题

在Linux中,epoll是一种高效且稳定的I/O事件通知机制,广泛应用于现代互联网应用。然而:

  • 早期版本的epoll:当多个worker监听同一端口时,会导致“惊群问题”,即所有worker同时被唤醒,导致资源浪费。
  • epoll exclusive(Linux 4.5引入):虽然解决了惊群问题,但采用了一种“后进先出”(LIFO)的唤醒策略,导致连接分发不均。具体表现为,等待队列中的worker按顺序被唤醒,最后一个worker总是优先处理新连接,从而造成负载不均。

reuseport的问题

reuseport(Linux 3.9引入)允许多个socket监听同一端口,通过哈希算法将连接分发到不同的socket。尽管避免了epoll exclusive的LIFO问题,但其无状态哈希机制可能导致队列不均,使得时延方差较大,在极端场景下(如高流量租户发生哈希冲突)表现不佳。此外,当某个worker失效时,reuseport无法感知这一变化,仍会将连接分发到不可用的worker。

| 设计

在内核空间中,仅根据队列中的数据包数量难以准确估计连接处理的负载。而在用户空间中,可以通过更精细的指标(如事件数量、事件处理程序类型和事件大小)来估算每个连接的工作负载,从而实现更优的调度。

image.png

基于上述测量结果和思考,我们提出了Hermes,其核心思想是将用户空间worker进程的多个状态指标作为L7负载均衡决策的重要依据,构建灵活高效的闭环连接分发控制机制,并通过eBPF以非侵入方式定制内核功能。Hermes将worker的可用性、待处理事件数以及累积连接数作为参考指标,并在原有的epoll事件循环中添加少量代码,用于收集这些指标并更新到内核。再基于这些指标为新连接选择worker,来实现worker间负载均衡。

| 总结和展望

Hermes作为Canal系列的Dispatcher组件,是阿里云在L7负载均衡领域多年技术积累的结晶。基于用户态引导的I/O事件通知框架设计,相较于传统方案,实现了更精细的流量调度与租户隔离。L7 LB作为云基础设施中服务交付的关键组件,Hermes通过闭环控制与eBPF技术的结合,不仅解决了传统负载均衡中面对云上多种租户流量类型导致转发进程负载不均的问题,还提供了极高的可编程性和快速迭代能力,为未来支持更复杂的业务逻辑和服务形态奠定了坚实的基础。Hermes已在阿里云大规模部署,显著降低了时延突刺现象和部署成本,展现了其在高性能、高可靠性和灵活性方面的卓越优势。


总结

image.png

洛神云网络学术成果概览图

阿里云飞天洛神云网络专注于为阿里云包括ECS、容器、裸金属在内的各类云服务提供超大规模、超高性能、广泛可靠的网络连接,自诞生起就坚持自主研发,从硬件到软件把握核心技术命脉,同时积极推进产学研结合。迄今为止,先后与9所高校/科研机构共同探究研究课题,填补领域空白。在网络与系统领域的顶级学术会议上,先后展示了:虚拟网络探测技术vTrace (SIGCOMM'20)和Zoonet (CoNEXT'22)、P4硬件网关Sailfish (SIGCOMM'21)和LuoShen (NSDI'24)、超大规模的网络虚拟化平台Achelous (SIGCOMM'23)、AVS虚拟交换机的硬件卸载框架Triton(SIGCOMM'24)、计算网络解耦下的vSwitch池化架构Nezha(SIGCOMM'25)、公有云虚拟网络控制器平台Poseiden (NSDI'24)、NFV弹性网元平台CyberStar (ATC'24) 、首个服务网格平台Canal Mesh (SIGCOMM'24) 和 面向7层LB的用户态引导I/O事件通知框架Hermes(SIGCOMM'25)。阿里云飞天洛神云网络将继续以追求极致的技术创新为使命,创新落地服务用户为宗旨,为阿里云用户提供更优质的网络服务体验。


加入我们,一起探索云和AI网络;目前暑期实习生火热招聘中,欢迎大家扫码投递,也可以通过邮箱(alibaba_cloud_network@alibaba-inc.com)与我们联系。

image.png

承慕
+关注
目录
打赏
0
3
3
1
51
分享
相关文章
云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项
阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
113 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
191 17
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们日常生活中不可或缺的一部分。本文将深入探讨网络安全漏洞、加密技术和安全意识等方面的问题,并提供一些实用的建议和解决方案。我们将通过分析网络攻击的常见形式,揭示网络安全的脆弱性,并介绍如何利用加密技术来保护数据。此外,我们还将强调提高个人和企业的安全意识的重要性,以应对日益复杂的网络威胁。无论你是普通用户还是IT专业人士,这篇文章都将为你提供有价值的见解和指导。
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已经成为了我们生活中不可或缺的一部分。本文将介绍网络安全的基本概念,包括网络安全漏洞、加密技术以及如何提高个人和组织的安全意识。我们将通过一些实际案例来说明这些概念的重要性,并提供一些实用的建议来保护你的信息和数据。无论你是网络管理员还是普通用户,都可以从中获得有用的信息和技能。
119 0
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
147 10
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为全球关注的焦点。本文将探讨网络安全漏洞、加密技术以及提升安全意识的重要性。通过深入浅出的解释和实际案例分析,我们将揭示网络攻击的常见手段,介绍加密技术如何保护数据安全,并强调个人和企业应如何提高安全防范意识。无论你是IT专业人士还是普通网民,这篇文章都将为你提供宝贵的信息和建议,帮助你在网络世界中更安全地航行。
网络安全与信息安全:漏洞、加密与意识的艺术
在数字世界的迷宫中,网络安全和信息安全是守护者之剑。本文将揭示网络漏洞的面纱,探索加密技术的奥秘,并强调安全意识的重要性。通过深入浅出的方式,我们将一起走进这个充满挑战和机遇的领域,了解如何保护我们的数字身份不受威胁,以及如何在这个不断变化的环境中保持警惕和适应。
96 1
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问