阿里云飞天洛神云网络论文又~双~叒入选 SIGCOMM主会

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: 阿里云飞天洛神云网络与浙江大学合作的学术论文《Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks》被SIGCOMM'23主会录用

简介:5月下旬,通信领域顶会SIGCOMM 2023公布了本届会议的入选论文,阿里云飞天洛神云网络与浙江大学合作的学术论文《Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks》被SIGCOMM'23主会录用,是阿里云飞天洛神云网络团队自2020年起发表的第三篇SIGCOMM会议论文,阿里云在网络领域的技术探索也再次得到业界专家的一致认可。

SIGCOMM是ACM组织在通信网络领域的旗舰型会议,位列网络通信领域会议之首,对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,被SIGCOMM录用的论文具有非常大的影响力,网络研究人员都把在SIGCOMM会议上发表论文分享工作当做一种荣誉。自1977年起,SIGCOMM会议已成功举办了30余次,今年是37次会议。此次会议,阿里云网络研发团队分享的论文主题是 “阿里云飞天洛神云网络虚拟化平台”,这也即是国内首个在网络领域顶级会议上分享的自研虚拟网络平台。

□ 飞天洛神云网络在阿里云中的位置

众所周知,阿里云操作系统名叫飞天,而其中的网络子系统正是洛神,它们的关系如下图所示。作为飞天操作系统内核的核心组件和系统服务,洛神为ECS、容器、裸金属等IP实例提供安全高效的VPC网络。

在实现上,洛神通过三个关键组件为IP实例提供网络虚拟化能力:控制平面上的SDN控制器、数据平面上的vSwitch虚拟网关

其中,控制器 管理IP实例生命周期内的所有网络配置,并将网络规则下发到 vSwitch 和 网关 中。 例如,当用户创建了一台VM,控制器 就会将所有与该VM相关的网络转发信息(VM-HOST映射表项、路由等)下发到 vSwitch 和 网关 中。 如果VM的网络发生变化(比如迁移到另一台主机,挂载新网卡等),控制器 也会更新数据平面上的相应规则。在数据平面上,vSwitch 是一个per-host的网络交换节点,专门负责IP实例的流量转发;网关 作为更高一级的转发组件,负责接收和转发来自 vSwitch 的数据包,实现不同域之间的互联互通。

□ 云计算新时期云网络的能力提升

云计算经过多年发展,如今已成为服务部署范式,各行各业都在寻找和选择自己业务的上云方式。阿里云作为国内体量最大的公有云服务提供商,已经较其他云服务提供商更早感受到这些新的需求和挑战的冲击,这其中包括:

  1. 随着互联网业务全面上云,超大规模的VPC需求已经成为现实,单VPC内超过100万的IP实例(远超Google云平台论文里的10万和AWS re:Invent大会中宣布的25万)对网络变配收敛的时效性要求不降反升;
  2. 随着网络中间件等流量重载业务上云,网络的隔离和弹性要求更高。例如NFV网元ECS和普通客户ECS混合部署在同一物理基础设施上,网元ECS一方面需要更加弹性的网络容量,另一方面可能加剧其与普通ECS在网络带宽、网络计算资源方面的争抢;
  3. 网络拓扑更加复杂,故障探测与规避要求更高,需要先手发现潜在风险,并在客户无感的情况下帮助客户恢复。

阿里云飞天洛神云网络为应对这些挑战,避免了过度优化单一组件的原则,充分探索了数据平面(vSwitch 和 网关)和控制平面(控制器)之间的协同设计,提出了路由主动学习、弹性带宽机制以及无感知的故障探测和热迁移等创新技术。经过了数年的部署验证,线上运营的数据显示,实现了百万实例VPC变配秒级收敛、兼顾了弹性和隔离,同时将故障转移时间缩短至100ms,良好支持了超大规模、超强性能,超高弹性、极致稳定的云网络。

□ 总结与展望

阿里云飞天洛神云网络经历了时间的检验,服务了数以万计的客户。平台能发展到今天,离不开整个研发团队的一起努力,更也离不开客户的信任和支持,客户的需求始终是平台演进的源动力。希望阿里云在服务客户过程中积累的这些宝贵经验和技术创新能够对学术界、工业界有所启发,阿里云洛神云网络也不会停止演进的步伐,继续为客户提供更广泛的连接、更可靠的网络。

在SIGCOMM’23会议结束后,我们也会带来其他更详细的论文技术解密,敬请期待。

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
1月前
|
弹性计算 负载均衡 网络协议
这种情况可能是由于阿里云的API服务出现了短暂的故障或者网络波动导致的
【2月更文挑战第20天】这种情况可能是由于阿里云的API服务出现了短暂的故障或者网络波动导致的
73 1
|
2月前
|
机器学习/深度学习 编解码 计算机视觉
【APFN】从大佬论文中探索如何分析改进金字塔网络
【APFN】从大佬论文中探索如何分析改进金字塔网络
51 0
|
2月前
|
计算机视觉
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
51 0
【论文复现】经典再现:yolov4的主干网络重构(结合Slim-neck by GSConv)
|
1月前
|
存储 调度 块存储
阿里云连续两年斩获全球存储顶会FAST最佳论文
阿里云连续两年斩获全球存储顶会FAST最佳论文
322 0
|
27天前
|
消息中间件 Cloud Native Serverless
飞天发布时刻丨阿里云 ApsaraMQ 全面升级,携手 Confluent 发布全新产品
阿里云在3月29日的飞天发布时刻宣布ApsaraMQ全面升级,实现全系产品Serverless化,与Confluent合作推出新产品,强化云原生消息队列服务。
|
1月前
|
弹性计算 网络协议 关系型数据库
网络技术基础阿里云实验——企业级云上网络构建实践
实验地址:<https://developer.aliyun.com/adc/scenario/65e54c7876324bbe9e1fb18665719179> 本文档指导在阿里云上构建跨地域的网络环境,涉及杭州和北京两个地域。任务包括创建VPC、交换机、ECS实例,配置VPC对等连接,以及设置安全组和网络ACL规则以实现特定服务间的互访。例如,允许北京的研发服务器ECS-DEV访问杭州的文件服务器ECS-FS的SSH服务,ECS-FS访问ECS-WEB01的SSH服务,ECS-WEB01访问ECS-DB01的MySQL服务,并确保ECS-WEB03对外提供HTTP服务。
|
1月前
|
机器学习/深度学习 开发者
论文介绍:基于扩散神经网络生成的时空少样本学习
【2月更文挑战第28天】论文介绍:基于扩散神经网络生成的时空少样本学习
16 1
论文介绍:基于扩散神经网络生成的时空少样本学习
|
1月前
|
存储 调度 块存储
十二年磨一剑:三代架构演进,打造高性能、低成本的块存储!
上周,全球计算机存储顶会USENIX FAST 2024 在美国加州圣克拉拉召开,继去年获得国内首个FAST最佳论文奖后,凭借在分布式块存储上的创新,阿里云新作再次斩获FAST大会最佳论文奖。这也是国内唯一一家连续两年获得FAST最佳论文奖的科技公司。
104619 104