飞天洛神云网络再度入选通信顶会 SIGCOMM'24

简介: 飞天洛神云网络再度入选通信顶会 SIGCOMM'24

云布道师


摘要:5 月初,通信领域顶会  SIGCOMM 2024 公布了本届会议的入选论文,阿里云飞天洛神云网络 2 项核心技术 Triton(云虚拟交换机硬件卸载)和Canal  Mesh(多租户服务网格框架)被 SIGCOMM 2024 主会双双录用,阿里云网络的技术再次得到业界专家的一致认可。飞天洛神坚持自主研发,历经十余年持续深耕云网络,在超高性能网络转发、超大规模网络控制、超高精度网络观测等多个技术领域取得了多个技术突破,相关工作发表在 SIGCOMM、NSDI、INFOCOM、MobiCom 等国外顶级会议上。自 2020 年以来,阿里云网络在 SIGCOMM/NSDI 两大通信领域顶会发表了数十篇论文,国内云服务厂商入选数量排名第一。飞天洛神的各项关键技术分别获得了 2021 年浙江省技术发明一等奖、2021 年中国计算机学会技术发明一等奖、2023 年中国计算机学会技术发明二等奖以及 2023 年中国自动化学会科技进步一等奖,技术领先性得到了国内外重要机构的高度认可。

image.png

SIGCOMM  是 ACM  组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,通常录用率不足   20%。此次会议,阿里云洛神云网络团队两项核心技术通过对超大规模云网络运营的理解,将理论与实践结合,将落地部署多年的经验凝聚成长文,获得了国际学者和业界专家的高度认可。下面我们将深入解读一下这两项核心技术为何能在  16.9% 的录用率中脱颖而出。


Triton ——阿里云虚拟交换机硬件卸载框架


Triton: A Flexible Hardware Offloading Architecture for Accelerating Apsara vSwitch in Alibaba Cloud


既 P4 硬件网关 Sailfish 之后,云网络团队又一硬件卸载力作。论文首次揭秘阿里云网络虚拟化平台的重要组件 Apsara vSwitch(AVS)及其硬件加速方案,该论文详细展示了阿里云对于云网络虚拟交换机(vSwitch)加速设计的思考与尝试。


背景


AVS是阿里云自研的vSwitch简称,作为网络虚拟化平台Achelous(详见SIGCOMM’23主会论文)的重要组成部分,它基于服务器粒度部署,负责云上计算实例(如虚拟机、裸金属、容器等)的网络连接和管理功能。进入硬件卸载时代,目前已有的  vSwitch 硬件卸载方案大多采用软/硬件转发分离的设计——即将热门流量卸载到加速硬件,而完整的 vSwitch  功能保留在软件上。然而,在对 AVS  的大规模部署和运维中,我们发现这种设计下软、硬件转发两条平行的数据路径在性能和可编程性上存在巨大差距,无法弥合,既有害于用户网络性能 SLA  保障,也带来了迭代和运维负担。因此,Triton 架构应运而生。

image.png


Triton 设计


在 Triton 架构中(如上图所示),我们通过如下设计来平衡 AVS 的性能与灵活性:


  1. 统一软硬转路径,并精细化分配 AVS 数据包处理负载。Triton 的设计原则是先统一数据通路,实现可预期数据包处理性能;然后通过对数据包处理负载建模,把复杂易变的功能保留在软件上,而 I/O 等通用的加速能力由硬件实现。


  1. 为了进一步缓解软件的性能压力,Triton  应用了一系列最前沿的技术提升 AVS 的带宽、PPS  性能。例如,在带宽方面,通过在云数据中心内支持巨型帧传输、在软硬件模块之间应用包头-负载分离设计,来减少无效的数据包负载移动;在PPS  提升方面,实现了基于硬件的数据包解析和向量化处理,以平摊数据包处理时延。


总结和展望

Triton 是阿里云 AVS 硬件卸载多年来深耕的研发与运维经验集合,基于阿里云自研的CIPU实现,相较于软件转发,带宽提升了 3 倍以上,PPS(数据包速率)和 CPS(连接新建能力)提升 2 倍以上,同时兼顾了可编程性和快速迭代能力。由于复杂业务逻辑由软件承载,赋予了AVS研发迭代极高的灵活性。作为云基础设施中物理网络的“端”,和用户网络的第一跳,vSwitch 在未来超以太网(如UEC、SRD等)演进中的角色至关重要,可以预见到 Triton 的灵活性将为 overlay 网络未来支撑多路径、可靠传输等特性提供了架构优势,在不侵入用户主机的情况下为用户提供“端到端”可靠传输,以及更多的网络能力增强。


Canal Mesh——阿里云低开销、高性能、无侵入服务网格架构


Canal Mesh: A Cloud-Scale Sidecar-Free Multi-Tenant Service Mesh Architecture

论文介绍了阿里云云网络和容器服务团队多年部署 sidecar 模式服务网格发现的问题和经验,提出了全球首个多租、sidecar-free 的服务网格方案,相比竞品提升了十几倍的性能并降低了数倍的资源消耗。


背景


近年来,服务网格框架因其在微服务构建方面的卓越能力而广受欢迎。其中一个重要的组件是位于每个 K8S pod 中的代理(sidecar),提供服务治理、零信任网络、可观测等能力。然而,我们大规模部署后发现过重的 sidecar 带来了很多问题,如侵犯用户隐私、过度消耗资源、超高的管理复杂性,以及性能下降。为了解决上述问题,我们基于阿里云成熟的多租治理经验,提出了云上多租服务网格架构。


Canal Mesh 架构

image.png

Canal Mesh 的方案包含以下两个核心设计:


  1. 通过将 sidecar 的功能拉远、集中化部署、多租共享来减少对用户的侵入性、降低使用成本、简化配置管理。并通过硬件卸载、eBPF bypass kernel 等方式提升性能。
  2. 为了解决拉远、集中和多租部署带来的服务可用性、租户间隔离、noisy neighbor、弹性和高基础设施成本等问题,我们还提出了分层故障恢复、精准弹性伸缩、云基础设施复用等方案。


总结


基于上述设计,Canal  Mesh 在性能、资源使用效率和控制平面开销等方面较 Istio和 Ambient  有显著的优势。我们现在面向公测客户提供云原生化的服务网格解决方案,也欢迎大家加入钉钉交流群:11360036029,共同探讨来实现更优的云上服务网格方案。


结束语


阿里云飞天洛神云网络专注于为阿里云包括   ECS、容器、裸金属在内的各类云服务提供超大规模、超高性能、广泛可靠的网络连接,自诞生起就坚持自主研发,从硬件到软件把握核心技术命脉,同时积极推进产学研结合。迄今为止,先后与  9 所高校/科研机构共同探究研究课题,填补领域空白。在网络与系统领域的顶级学术会议上,先后展示了:虚拟网络探测技术vTrace (SIGCOMM’ 20)和Zoonet (CoNEXT’ 22)、P4硬件网关Sailfish (SIGCOMM’ 21)和LuoShen (NSDI’ 24)、超大规模的网络虚拟化平台Achelous (SIGCOMM’ 23)、AVS虚拟交换机的硬件卸载框架Triton(SIGCOMM’ 24)、公有云虚拟网络控制器平台 Poseiden (NSDI’ 24)、NFV网元平台 CyberStar (ATC’ 24) 和 首个服务网格平台 Canal Mesh (SIGCOMM’ 24)。阿里云飞天洛神云网络将继续以追求极致的技术创新为使命,创新落地服务用户为宗旨,为阿里云用户提供更优质的网络服务体验

相关文章
|
1月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
136 63
|
3月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
677 146
|
1月前
|
canal 编解码 运维
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
|
1月前
|
存储 运维 监控
阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
|
2月前
|
人工智能 自然语言处理 决策智能
智能体竟能自行组建通信网络,还能自创协议提升通信效率
《一种适用于大型语言模型网络的可扩展通信协议》提出创新协议Agora,解决多智能体系统中的“通信三难困境”,即异构性、通用性和成本问题。Agora通过标准协议、结构化数据和自然语言三种通信格式,实现高效协作,支持复杂任务自动化。演示场景显示其在预订服务和天气预报等应用中的优越性能。论文地址:https://arxiv.org/pdf/2410.11905。
57 6
|
1月前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
|
2月前
|
缓存 网络协议 安全
即时通讯初学者必知必会的20个网络编程和通信安全知识点
即时通讯IM应用开发的初学者很容易迷失在网络编程的复杂性以及通信安全的各种概念里,本文不涉及深度理论知识,尽量通过一句话或几句话让你快速了解20个相关的网络编程和通信安全知识点,希望能助你愉快地开始即时通讯应用开发。
54 0
|
3月前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
4月前
|
负载均衡 网络协议 算法
不为人知的网络编程(十九):能Ping通,TCP就一定能连接和通信吗?
这网络层就像搭积木一样,上层协议都是基于下层协议搭出来的。不管是ping(用了ICMP协议)还是tcp本质上都是基于网络层IP协议的数据包,而到了物理层,都是二进制01串,都走网卡发出去了。 如果网络环境没发生变化,目的地又一样,那按道理说他们走的网络路径应该是一样的,什么情况下会不同呢? 我们就从路由这个话题聊起吧。
117 4
不为人知的网络编程(十九):能Ping通,TCP就一定能连接和通信吗?
|
5月前
|
网络协议
计算机网络与通信
计算机网络基本概念:了解计算机网络的定义、功能、分类和拓扑结构(如总线型、星型、环型、树形、网状等)。 网络通信原理:了解网络通信的基本原理、协议和技术,如TCP/IP协议、网络通信设备等。
79 3
下一篇
oss创建bucket