阿里云飞天洛神云网络论文又~双~叒入选 SIGCOMM主会

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
应用型负载均衡 ALB,每月750个小时 15LCU
网络型负载均衡 NLB,每月750个小时 15LCU
简介: 阿里云飞天洛神云网络与浙江大学合作的学术论文《Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks》被SIGCOMM'23主会录用

简介:5月下旬,通信领域顶会SIGCOMM 2023公布了本届会议的入选论文,阿里云飞天洛神云网络与浙江大学合作的学术论文《Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks》被SIGCOMM'23主会录用,是阿里云飞天洛神云网络团队自2020年起发表的第三篇SIGCOMM会议论文,阿里云在网络领域的技术探索也再次得到业界专家的一致认可。

SIGCOMM是ACM组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,被SIGCOMM录用的论文具有非常大的影响力,网络研究人员都把在SIGCOMM会议上发表论文分享工作当做一种荣誉。自1977年起,SIGCOMM会议已成功举办了30余次,今年是37次会议。此次会议,阿里云网络研发团队分享的论文主题是 “阿里云飞天洛神云网络虚拟化平台”,这也即是国内首个在网络领域顶级会议上分享的自研虚拟网络平台。

□ 飞天洛神云网络在阿里云中的位置

众所周知,阿里云操作系统名叫飞天,而其中的网络子系统正是洛神,它们的关系如下图所示。作为飞天操作系统内核的核心组件和系统服务,洛神为ECS、容器、裸金属等IP实例提供安全高效的VPC网络。

在实现上,洛神通过三个关键组件为IP实例提供网络虚拟化能力:控制平面上的SDN控制器、数据平面上的vSwitch虚拟网关

其中,控制器 管理IP实例生命周期内的所有网络配置,并将网络规则下发到 vSwitch 和 网关 中。 例如,当用户创建了一台VM,控制器 就会将所有与该VM相关的网络转发信息(VM-HOST映射表项、路由等)下发到 vSwitch 和 网关 中。 如果VM的网络发生变化(比如迁移到另一台主机,挂载新网卡等),控制器 也会更新数据平面上的相应规则。在数据平面上,vSwitch 是一个per-host的网络交换节点,专门负责IP实例的流量转发;网关 作为更高一级的转发组件,负责接收和转发来自 vSwitch 的数据包,实现不同域之间的互联互通。

□ 云计算新时期云网络的能力提升

云计算经过多年发展,如今已成为服务部署范式,各行各业都在寻找和选择自己业务的上云方式。阿里云作为国内体量最大的公有云服务提供商,已经较其他云服务提供商更早感受到这些新的需求和挑战的冲击,这其中包括:

  1. 随着互联网业务全面上云,超大规模的VPC需求已经成为现实,单VPC内超过100万的IP实例(远超Google云平台论文里的10万和AWS re:Invent大会中宣布的25万)对网络变配收敛的时效性要求不降反升;
  2. 随着网络中间件等流量重载业务上云,网络的隔离和弹性要求更高。例如NFV网元ECS和普通客户ECS混合部署在同一物理基础设施上,网元ECS一方面需要更加弹性的网络容量,另一方面可能加剧其与普通ECS在网络带宽、网络计算资源方面的争抢;
  3. 网络拓扑更加复杂,故障探测与规避要求更高,需要先手发现潜在风险,并在客户无感的情况下帮助客户恢复。

阿里云飞天洛神云网络为应对这些挑战,避免了过度优化单一组件的原则,充分探索了数据平面(vSwitch 和 网关)和控制平面(控制器)之间的协同设计,提出了路由主动学习、弹性带宽机制以及无感知的故障探测和热迁移等创新技术。经过了数年的部署验证,线上运营的数据显示,实现了百万实例VPC变配秒级收敛、兼顾了弹性和隔离,同时将故障转移时间缩短至100ms,良好支持了超大规模、超强性能,超高弹性、极致稳定的云网络。

□ 总结与展望

阿里云飞天洛神云网络经历了时间的检验,服务了数以万计的客户。平台能发展到今天,离不开整个研发团队的一起努力,更也离不开客户的信任和支持,客户的需求始终是平台演进的源动力。希望阿里云在服务客户过程中积累的这些宝贵经验和技术创新能够对学术界、工业界有所启发,阿里云洛神云网络也不会停止演进的步伐,继续为客户提供更广泛的连接、更可靠的网络。

在SIGCOMM’23会议结束后,我们也会带来其他更详细的论文技术解密,敬请期待。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
9天前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
18 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
9天前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
29 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
2天前
|
人工智能 关系型数据库 数据中心
2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新
今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。
|
5天前
|
弹性计算 Kubernetes 网络协议
阿里云弹性网络接口技术的容器网络基础教程
阿里云弹性网络接口技术的容器网络基础教程
阿里云弹性网络接口技术的容器网络基础教程
|
9天前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
24 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
14天前
|
Ubuntu 网络安全 数据安全/隐私保护
阿里云国际版如何设置网络控制面板
阿里云国际版如何设置网络控制面板
|
13天前
|
Ubuntu Linux 应用服务中间件
阿里云国际短信业务网络超时排障指南
阿里云国际短信业务网络超时排障指南
|
14天前
|
存储 运维 负载均衡
为什么阿里云国际版 要使用CDN(内容交付网络)?
为什么阿里云国际版 要使用CDN(内容交付网络)?
|
15天前
|
测试技术
评测 AlibabaCloud 阿里云国际版 香港轻量云服务器的性能和网络怎么样
评测 AlibabaCloud 阿里云国际版 香港轻量云服务器的性能和网络怎么样
|
8天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:守护数字世界的坚盾
在数字化浪潮中,网络安全已成为维系现代社会正常运转的关键。本文旨在探讨网络安全漏洞的成因、加密技术的应用及安全意识的提升,以期为广大用户和技术人员提供实用的知识分享。通过对这些方面的深入剖析,我们期望能够共同构建一个更加安全可靠的数字环境。