云布道师
摘要:5 月初,通信领域顶会 SIGCOMM 2024 公布了本届会议的入选论文,阿里云飞天洛神云网络 2 项核心技术 Triton(云虚拟交换机硬件卸载)和Canal Mesh(多租户服务网格框架)被 SIGCOMM 2024 主会双双录用,阿里云网络的技术再次得到业界专家的一致认可。飞天洛神坚持自主研发,历经十余年持续深耕云网络,在超高性能网络转发、超大规模网络控制、超高精度网络观测等多个技术领域取得了多个技术突破,相关工作发表在 SIGCOMM、NSDI、INFOCOM、MobiCom 等国外顶级会议上。自 2020 年以来,阿里云网络在 SIGCOMM/NSDI 两大通信领域顶会发表了数十篇论文,国内云服务厂商入选数量排名第一。飞天洛神的各项关键技术分别获得了 2021 年浙江省技术发明一等奖、2021 年中国计算机学会技术发明一等奖、2023 年中国计算机学会技术发明二等奖以及 2023 年中国自动化学会科技进步一等奖,技术领先性得到了国内外重要机构的高度认可。
SIGCOMM 是 ACM 组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,通常录用率不足 20%。此次会议,阿里云洛神云网络团队两项核心技术通过对超大规模云网络运营的理解,将理论与实践结合,将落地部署多年的经验凝聚成长文,获得了国际学者和业界专家的高度认可。下面我们将深入解读一下这两项核心技术为何能在 16.9% 的录用率中脱颖而出。
Triton ——阿里云虚拟交换机硬件卸载框架
Triton: A Flexible Hardware Offloading Architecture for Accelerating Apsara vSwitch in Alibaba Cloud
既 P4 硬件网关 Sailfish 之后,云网络团队又一硬件卸载力作。论文首次揭秘阿里云网络虚拟化平台的重要组件 Apsara vSwitch(AVS)及其硬件加速方案,该论文详细展示了阿里云对于云网络虚拟交换机(vSwitch)加速设计的思考与尝试。
背景
AVS是阿里云自研的vSwitch简称,作为网络虚拟化平台Achelous(详见SIGCOMM’23主会论文)的重要组成部分,它基于服务器粒度部署,负责云上计算实例(如虚拟机、裸金属、容器等)的网络连接和管理功能。进入硬件卸载时代,目前已有的 vSwitch 硬件卸载方案大多采用软/硬件转发分离的设计——即将热门流量卸载到加速硬件,而完整的 vSwitch 功能保留在软件上。然而,在对 AVS 的大规模部署和运维中,我们发现这种设计下软、硬件转发两条平行的数据路径在性能和可编程性上存在巨大差距,无法弥合,既有害于用户网络性能 SLA 保障,也带来了迭代和运维负担。因此,Triton 架构应运而生。
Triton 设计
在 Triton 架构中(如上图所示),我们通过如下设计来平衡 AVS 的性能与灵活性:
- 统一软硬转路径,并精细化分配 AVS 数据包处理负载。Triton 的设计原则是先统一数据通路,实现可预期数据包处理性能;然后通过对数据包处理负载建模,把复杂易变的功能保留在软件上,而 I/O 等通用的加速能力由硬件实现。
- 为了进一步缓解软件的性能压力,Triton 应用了一系列最前沿的技术提升 AVS 的带宽、PPS 性能。例如,在带宽方面,通过在云数据中心内支持巨型帧传输、在软硬件模块之间应用包头-负载分离设计,来减少无效的数据包负载移动;在PPS 提升方面,实现了基于硬件的数据包解析和向量化处理,以平摊数据包处理时延。
总结和展望
Triton 是阿里云 AVS 硬件卸载多年来深耕的研发与运维经验集合,基于阿里云自研的CIPU实现,相较于软件转发,带宽提升了 3 倍以上,PPS(数据包速率)和 CPS(连接新建能力)提升 2 倍以上,同时兼顾了可编程性和快速迭代能力。由于复杂业务逻辑由软件承载,赋予了AVS研发迭代极高的灵活性。作为云基础设施中物理网络的“端”,和用户网络的第一跳,vSwitch 在未来超以太网(如UEC、SRD等)演进中的角色至关重要,可以预见到 Triton 的灵活性将为 overlay 网络未来支撑多路径、可靠传输等特性提供了架构优势,在不侵入用户主机的情况下为用户提供“端到端”可靠传输,以及更多的网络能力增强。
Canal Mesh——阿里云低开销、高性能、无侵入服务网格架构
Canal Mesh: A Cloud-Scale Sidecar-Free Multi-Tenant Service Mesh Architecture
论文介绍了阿里云云网络和容器服务团队多年部署 sidecar 模式服务网格发现的问题和经验,提出了全球首个多租、sidecar-free 的服务网格方案,相比竞品提升了十几倍的性能并降低了数倍的资源消耗。
背景
近年来,服务网格框架因其在微服务构建方面的卓越能力而广受欢迎。其中一个重要的组件是位于每个 K8S pod 中的代理(sidecar),提供服务治理、零信任网络、可观测等能力。然而,我们大规模部署后发现过重的 sidecar 带来了很多问题,如侵犯用户隐私、过度消耗资源、超高的管理复杂性,以及性能下降。为了解决上述问题,我们基于阿里云成熟的多租治理经验,提出了云上多租服务网格架构。
Canal Mesh 架构
Canal Mesh 的方案包含以下两个核心设计:
- 通过将 sidecar 的功能拉远、集中化部署、多租共享来减少对用户的侵入性、降低使用成本、简化配置管理。并通过硬件卸载、eBPF bypass kernel 等方式提升性能。
- 为了解决拉远、集中和多租部署带来的服务可用性、租户间隔离、noisy neighbor、弹性和高基础设施成本等问题,我们还提出了分层故障恢复、精准弹性伸缩、云基础设施复用等方案。
总结
基于上述设计,Canal Mesh 在性能、资源使用效率和控制平面开销等方面较 Istio和 Ambient 有显著的优势。我们现在面向公测客户提供云原生化的服务网格解决方案,也欢迎大家加入钉钉交流群:11360036029,共同探讨来实现更优的云上服务网格方案。
结束语
阿里云飞天洛神云网络专注于为阿里云包括 ECS、容器、裸金属在内的各类云服务提供超大规模、超高性能、广泛可靠的网络连接,自诞生起就坚持自主研发,从硬件到软件把握核心技术命脉,同时积极推进产学研结合。迄今为止,先后与 9 所高校/科研机构共同探究研究课题,填补领域空白。在网络与系统领域的顶级学术会议上,先后展示了:虚拟网络探测技术vTrace (SIGCOMM’ 20)和Zoonet (CoNEXT’ 22)、P4硬件网关Sailfish (SIGCOMM’ 21)和LuoShen (NSDI’ 24)、超大规模的网络虚拟化平台Achelous (SIGCOMM’ 23)、AVS虚拟交换机的硬件卸载框架Triton(SIGCOMM’ 24)、公有云虚拟网络控制器平台 Poseiden (NSDI’ 24)、NFV网元平台 CyberStar (ATC’ 24) 和 首个服务网格平台 Canal Mesh (SIGCOMM’ 24)。阿里云飞天洛神云网络将继续以追求极致的技术创新为使命,创新落地服务用户为宗旨,为阿里云用户提供更优质的网络服务体验