4月底,通信领域顶会 SIGCOMM 2025 公布了本届会议的入选论文,阿里云飞天洛神云网络2项核心技术Nezha(计算网络解耦下的vSwitch池化架构)和Hermes(用户态引导IO的增强型L7云负载均衡器)被SIGCOMM 2025主会双双录用,核心技术再次得到业界认可。阿里云网络坚持自主研发,历经十余年持续深耕云网络,在超高性能网络转发、超大规模网络控制、超高精度网络观测等多个技术领域取得了多个技术突破,相关工作发表在SIGCOMM、NSDI、INFOCOM、MobiCom等国外顶级会议上。自2020年以来,阿里云网络在SIGCOMM/NSDI两大通信领域顶会发表了数十篇论文,国内云服务厂商入选数量排名第一。飞天洛神的各项关键技术分别获得了2021年浙江省技术发明一等奖、2021年中国计算机学会技术发明一等奖、2023年中国计算机学会技术发明二等奖以及2023年中国自动化学会科技进步一等奖,技术领先性得到了国内外重要机构的高度认可。
关于SIGCOMM
SIGCOMM 是 ACM 组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,通常录用率不足20%。SIGCOMM 2025将于2025年9月8-11日在葡萄牙Coimbra举办,此次会议,阿里云洛神云网络团队两项核心技术通过对超大规模云网络运营的理解,将理论与实践结合,将落地部署多年的经验凝聚成长文,获得了国际学者和业界专家的高度认可。下面我们将深入解读一下这两项核心技术为何能从海量投稿论文中脱颖而出。
Nezha——计算网络解耦下的vSwitch池化架构
Nezha: SmartNIC-based Virtual Switch Load Sharing
Nezha是阿里云在vSwitch领域继Achelous和Triton之后的第三篇SIGCOMM论文,聚焦于计算实例的网络资源/性能池化。通过利用集群内所有的SmartNIC作为分布式vSwitch的弹性资源池,充分释放单个vSwitch的性能极限,提供单vSwitch接近裸机的百万级连接新建能力(CPS)、数倍的并发流能力、和数十倍的虚拟网卡密度提升。在此过程中,Nezha创新性地解决了vSwitch集群粒度池化带来的状态管理、容灾及负载均衡等关键挑战。论文详细阐述了阿里云的设计思考与技术实践,为更具弹性的下一代计算、网络解耦的数据中心部署形态提供了新的思路。
| 背景
在云数据中心中,SmartNIC加速的vSwitch被广泛用于为云服务器和容器等计算实例提供高性能网络服务。然而,由于网络虚拟化以及多租带来的开销,云服务器的网络能力长期受限于单个SmartNIC有限的物理资源而远低于裸机(指物理服务器间直连,无overlay,网络非瓶颈)的水平。例如,阿里云基于Triton卸载架构实现了主流云厂商中最高的单卡单服务器43万CPS,仍低于裸机的120万CPS。这就意味着在单个云服务器上,网络可能先于计算CPU达到瓶颈,而无法水平扩展(受限于单卡资源),尤其是一些流量重载的网络中间件服务。
另一方面,在大规模的vSwitch部署运维中,我们还发现了用户对网络与计算资源的消耗是极其不均衡的。就网络而言,只有少数服务器上的用户网络需求高,vSwitch因卡上资源不足面临性能瓶颈(大约占0.01%),但是从集群角度看大量vSwitch/SmartNIC却处于相对空闲的状态(卡上的CPU和内存平均利用只有5%和1.5%)。这种资源“短缺”与“闲置”并存的问题,使得通过部署更高性能的SmartNIC或利用主机资源来解决过载变得成本高昂且效率低下。现有解决方案如Sirius虽然引入专用设备分担压力,但存在硬件成本高、状态同步复杂以及性能开销大的问题。因而我们开始探索寻求SmartNIC网络资源池化解法,让网络彻底摆脱单卡资源限制,与计算资源解耦。
|设计
在Nezha这篇论文中,我们提出了一种计算网络解耦下的vSwitch池化架构,旨在调动整个集群粒度的SmartNIC资源池,来提升单个vSwitch网络性能上限。其核心思想是通过对vSwitch中虚拟网卡(vNIC)的数据包处理负载进行建模拆解,尽可能地卸载到远端SmartNIC以利用池化的资源。为了避免复杂的状态同步和传输开销,我们按有无状态的原则将vNIC网络负载拆解成前端和后端两部分,前端(无状态规则/流表)卸载到远端资源池,有状态的后端部分则保留在本地卡上进行处理。借助ECMP机制,远端节点池的性能也可以很容易地实现线性伸缩和容灾处理。
|总结和展望
Nezha是阿里云在vSwitch领域多年技术积累的成果,也是阿里云对下一代数据中心部署方向的探索。在计算网络解耦的大背景下,利用整集群的SmartNIC资源构建单节点vSwitch性能水平扩展能力,实现了高性能、低成本的vSwitch池化方案。在实际部署中,Nezha无需新增硬件,仅通过软件优化即可将CPS能力提升3~4.4倍,支持的并发流和vNIC数量分别提升5.04~50.4倍和超过40倍。作为云基础设施中的关键组件,Nezha不仅将vSwitch过载率降低了99.9%,其部署成本和复杂性也极低,为网络功能的进一步扩展提供了灵活性与高性能保障。
Hermes——面向L7 LB的用户态引导I/O事件通知框架
Hermes: Enhancing Layer-7 Cloud Load Balancers with Userspace-Directed I/O Event Notification
在推出无侵入的多租服务网格架构Canal Mesh(SIGCOMM'24)之后,洛神云网络团队再次带来了Canal系列的第二篇文章——Canal dispatcher:Hermes。Hermes聚焦于解决用户在L7层服务接入中面临难题的重磅论文,论文深入剖析了L7负载均衡worker进程之间负载不均的根本原因,并系统性地展示了阿里云在此领域的设计思路与创新实践。相比现有方案,Hermes将worker时延突刺的次数大幅降低了99.8%,同时使得L7负载均衡的云基础设施单位成本降低了18.9%。
| 背景
L7负载均衡(LB)在公有云中基于应用层数据进行流量调度,能够显著提升服务的性能、可用性和扩展性。作为主流云服务商的核心产品之一,阿里云的L7 LB集群已扩展至数十万CPU核心规模,支持每秒数千万次请求(RPS),服务于全球33个区域的租户。
由于L7处理的复杂性(如HTTP路由、加解密、协议转换、压缩等),行业通常基于多核服务器或虚拟机部署。每个worker需要处理来自多个租户的流量,因此防止worker过载是确保租户间性能隔离的关键,而这依赖于高效的负载均衡机制。
L4负载均衡方案的问题
相较于L4负载均衡,L7连接请求的处理负载差异显著(如加密、压缩或简单的数据拷贝操作),内核无法仅根据队列中的包数量预测每个请求的具体负载。因此,现有基于内核的分发机制(如epoll和reuseport)无法满足L7负载均衡的需求。如上图所示,虽然数据包在NIC队列中分布均匀,但CPU利用率差异显著。这是由于不同连接请求的处理路径不同,处理时间变化较大。
epoll的问题
在Linux中,epoll是一种高效且稳定的I/O事件通知机制,广泛应用于现代互联网应用。然而:
- 早期版本的epoll:当多个worker监听同一端口时,会导致“惊群问题”,即所有worker同时被唤醒,导致资源浪费。
- epoll exclusive(Linux 4.5引入):虽然解决了惊群问题,但采用了一种“后进先出”(LIFO)的唤醒策略,导致连接分发不均。具体表现为,等待队列中的worker按顺序被唤醒,最后一个worker总是优先处理新连接,从而造成负载不均。
reuseport的问题
reuseport(Linux 3.9引入)允许多个socket监听同一端口,通过哈希算法将连接分发到不同的socket。尽管避免了epoll exclusive的LIFO问题,但其无状态哈希机制可能导致队列不均,使得时延方差较大,在极端场景下(如高流量租户发生哈希冲突)表现不佳。此外,当某个worker失效时,reuseport无法感知这一变化,仍会将连接分发到不可用的worker。
| 设计
在内核空间中,仅根据队列中的数据包数量难以准确估计连接处理的负载。而在用户空间中,可以通过更精细的指标(如事件数量、事件处理程序类型和事件大小)来估算每个连接的工作负载,从而实现更优的调度。
基于上述测量结果和思考,我们提出了Hermes,其核心思想是将用户空间worker进程的多个状态指标作为L7负载均衡决策的重要依据,构建灵活高效的闭环连接分发控制机制,并通过eBPF以非侵入方式定制内核功能。Hermes将worker的可用性、待处理事件数以及累积连接数作为参考指标,并在原有的epoll事件循环中添加少量代码,用于收集这些指标并更新到内核。再基于这些指标为新连接选择worker,来实现worker间负载均衡。
| 总结和展望
Hermes作为Canal系列的Dispatcher组件,是阿里云在L7负载均衡领域多年技术积累的结晶。基于用户态引导的I/O事件通知框架设计,相较于传统方案,实现了更精细的流量调度与租户隔离。L7 LB作为云基础设施中服务交付的关键组件,Hermes通过闭环控制与eBPF技术的结合,不仅解决了传统负载均衡中面对云上多种租户流量类型导致转发进程负载不均的问题,还提供了极高的可编程性和快速迭代能力,为未来支持更复杂的业务逻辑和服务形态奠定了坚实的基础。Hermes已在阿里云大规模部署,显著降低了时延突刺现象和部署成本,展现了其在高性能、高可靠性和灵活性方面的卓越优势。
总结
洛神云网络学术成果概览图
阿里云飞天洛神云网络专注于为阿里云包括ECS、容器、裸金属在内的各类云服务提供超大规模、超高性能、广泛可靠的网络连接,自诞生起就坚持自主研发,从硬件到软件把握核心技术命脉,同时积极推进产学研结合。迄今为止,先后与9所高校/科研机构共同探究研究课题,填补领域空白。在网络与系统领域的顶级学术会议上,先后展示了:虚拟网络探测技术vTrace (SIGCOMM'20)和Zoonet (CoNEXT'22)、P4硬件网关Sailfish (SIGCOMM'21)和LuoShen (NSDI'24)、超大规模的网络虚拟化平台Achelous (SIGCOMM'23)、AVS虚拟交换机的硬件卸载框架Triton(SIGCOMM'24)、计算网络解耦下的vSwitch池化架构Nezha(SIGCOMM'25)、公有云虚拟网络控制器平台Poseiden (NSDI'24)、NFV弹性网元平台CyberStar (ATC'24) 、首个服务网格平台Canal Mesh (SIGCOMM'24) 和 面向7层LB的用户态引导I/O事件通知框架Hermes(SIGCOMM'25)。阿里云飞天洛神云网络将继续以追求极致的技术创新为使命,创新落地服务用户为宗旨,为阿里云用户提供更优质的网络服务体验。
加入我们,一起探索云和AI网络;目前暑期实习生火热招聘中,欢迎大家扫码投递,也可以通过邮箱(alibaba_cloud_network@alibaba-inc.com)与我们联系。