简介:5月下旬,通信领域顶会SIGCOMM 2023公布了本届会议的入选论文,阿里云飞天洛神云网络与浙江大学合作的学术论文《Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks》被SIGCOMM'23主会录用,是阿里云飞天洛神云网络团队自2020年起发表的第三篇SIGCOMM会议论文,阿里云在网络领域的技术探索也再次得到业界专家的一致认可。
SIGCOMM是ACM组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,被SIGCOMM录用的论文具有非常大的影响力,网络研究人员都把在SIGCOMM会议上发表论文分享工作当做一种荣誉。自1977年起,SIGCOMM会议已成功举办了30余次,今年是37次会议。此次会议,阿里云网络研发团队分享的论文主题是 “阿里云飞天洛神云网络虚拟化平台”,这也即是国内首个在网络领域顶级会议上分享的自研虚拟网络平台。
□ 飞天洛神云网络在阿里云中的位置
众所周知,阿里云操作系统名叫飞天,而其中的网络子系统正是洛神,它们的关系如下图所示。作为飞天操作系统内核的核心组件和系统服务,洛神为ECS、容器、裸金属等IP实例提供安全高效的VPC网络。
在实现上,洛神通过三个关键组件为IP实例提供网络虚拟化能力:控制平面上的SDN控制器、数据平面上的vSwitch 和 虚拟网关。
其中,控制器 管理IP实例生命周期内的所有网络配置,并将网络规则下发到 vSwitch 和 网关 中。 例如,当用户创建了一台VM,控制器 就会将所有与该VM相关的网络转发信息(VM-HOST映射表项、路由等)下发到 vSwitch 和 网关 中。 如果VM的网络发生变化(比如迁移到另一台主机,挂载新网卡等),控制器 也会更新数据平面上的相应规则。在数据平面上,vSwitch 是一个per-host的网络交换节点,专门负责IP实例的流量转发;网关 作为更高一级的转发组件,负责接收和转发来自 vSwitch 的数据包,实现不同域之间的互联互通。
□ 云计算新时期云网络的能力提升
云计算经过多年发展,如今已成为服务部署范式,各行各业都在寻找和选择自己业务的上云方式。阿里云作为国内体量最大的公有云服务提供商,已经较其他云服务提供商更早感受到这些新的需求和挑战的冲击,这其中包括:
- 随着互联网业务全面上云,超大规模的VPC需求已经成为现实,单VPC内超过100万的IP实例(远超Google云平台论文里的10万和AWS re:Invent大会中宣布的25万)对网络变配收敛的时效性要求不降反升;
- 随着网络中间件等流量重载业务上云,网络的隔离和弹性要求更高。例如NFV网元ECS和普通客户ECS混合部署在同一物理基础设施上,网元ECS一方面需要更加弹性的网络容量,另一方面可能加剧其与普通ECS在网络带宽、网络计算资源方面的争抢;
- 网络拓扑更加复杂,故障探测与规避要求更高,需要先手发现潜在风险,并在客户无感的情况下帮助客户恢复。
阿里云飞天洛神云网络为应对这些挑战,避免了过度优化单一组件的原则,充分探索了数据平面(vSwitch 和 网关)和控制平面(控制器)之间的协同设计,提出了路由主动学习、弹性带宽机制以及无感知的故障探测和热迁移等创新技术。经过了数年的部署验证,线上运营的数据显示,实现了百万实例VPC变配秒级收敛、兼顾了弹性和隔离,同时将故障转移时间缩短至100ms,良好支持了超大规模、超强性能,超高弹性、极致稳定的云网络。
□ 总结与展望
阿里云飞天洛神云网络经历了时间的检验,服务了数以万计的客户。平台能发展到今天,离不开整个研发团队的一起努力,更也离不开客户的信任和支持,客户的需求始终是平台演进的源动力。希望阿里云在服务客户过程中积累的这些宝贵经验和技术创新能够对学术界、工业界有所启发,阿里云洛神云网络也不会停止演进的步伐,继续为客户提供更广泛的连接、更可靠的网络。
在SIGCOMM’23会议结束后,我们也会带来其他更详细的论文技术解密,敬请期待。