阿里云飞天洛神2.0:开放弹性的云网络NFV平台

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
全球加速 GA,每月750个小时 15CU
私网连接 PrivateLink,5万GB流量 1.5万小时实例时长
简介: 作为飞天系统的核心组件,洛神平台支撑了超大规模租户、超大规模虚拟机的高性能云网络。其中洛神2.0 NFV平台的定位是构建通用、灵活的平台能力,降低业务网元NFV化的门槛和成本,实现了复杂业务网元超高的灵活性和弹性。

云网络架构

阿里云操作系统叫飞天,云网络平台称为洛神。作为飞天系统的核心组件,洛神平台支撑了超大规模租户、超大规模虚拟机的高性能云网络。

洛神平台由很多网络设备组成,在架构上主要可以分为两类:虚拟交换机AVS和各种网关设备。AVS负责ECS的虚拟网络接入,网关设备提供了丰富的网络功能和服务。

1.png

早期的洛神平台中,AVS和网关设备都是在x86物理机上基于kernel架构实现的,转发性能不高。随着DPDK技术的成熟,在洛神1.0架构中,AVS和网关设备基于DPDK进行了重构,使转发性能有显著提升,网关设备单物理机能提供100G+的转发能力。此外,我们也基于DPDK开发了一套高性能的通用转发平台NetFrame,包含了收发包、协议栈等通用的网络基础特性,屏蔽了DPDK版本和底层硬件差异,并做了大量的算法库优化和性能调优,使各网关产品能更专注于业务功能的快速演进。

2.png

在过去很长一段时间里,这个架构很好的满足了业务需求,并支撑了云网络的快速发展。但近几年,随着搬站和集团上云的推进,网络业务和流量出现了数量级增长,基于x86物理机软转发架构的问题也日益突出:

  • • 单核性能瓶颈,大流量或攻击场景容易打爆
  • • 部分场景业务流量激增,达到数十Tbps,物理机转发性能和业务述求间差了几个数量级
  • • 物理机扩容周期长,弹性不足,无法按需扩缩容
  • • 开放能力不足,无法支持生态部署
  • • ......

软硬件一体化

上述问题中,最关键的两个述求是高性能和高弹性。在这个背景下,洛神平台升级到了2.0架构,通过软硬件一体化,打造了连接全球、超大规模、弹性开放的新一代云网络平台。

硬件是解决性能问题的最佳选择。近几年随着SDN技术的普及,交换芯片和智能网卡都具备了不错的可编程能力,已经能很好的满足云网络基础需求。洛神2.0中,AVS和基础网关设备实现了硬件加速,使转发性能显著提升,单核问题和水位问题也都不复存在。

硬件性能很好,但可编程能力和资源都比较有限。对于路由、转发,硬件很擅长;但对于NAT、SLB这些有状态的复杂业务,硬件就有点力不从心了。除了硬件加速,洛神2.0还构建了新一代NFV平台,拥抱云原生,将网元逻辑部署在通用ECS上,提供弹性和开放能力,很好的弥补了硬件灵活性不足的问题。

3.png

通过软硬件一体化,基础网元通过硬件实现了超高的转发性能,复杂的业务网元则基于NFV平台实现了超高的灵活性和弹性。

4.png

云网络NFV平台

NFV的关键技术是构建平台能力,包括虚拟网络的调度能力和NFV资源池的抽象管理能力。基于平台能力,加上在ECS内实现的网络功能,就可以包装出各种网元产品了。

洛神2.0 NFV平台的定位就是构建通用、灵活的平台能力,降低业务网元NFV化的门槛和成本,提高产品能效。整个平台由NFV转发和NFV管控两部分组成,在实现上主要有以下特点:

  • • 基于ECS构建资源池,提供分钟级交付和弹性伸缩能力
  • • 支持多租户模式,提供通用的负载均衡、弹性扩缩容、故障隔离等基础能力
  • • 支持网络功能的服务链编排,将网络产品和安全产品串接成解决方案
  • • 支持第三方生态接入

5.png

NFV转发平台采用了分层设计,通过抽象转发层和业务逻辑层,实现了转发的快慢速分离。受益于洛神1.0中对于DPDK和NetFrame的积累,业务网元从物理机迁移到ECS后仍具备了很高的转发性能,结合ECS的弹性和NFV架构的水平伸缩能力,能分钟级交付单客户100G+的转发能力。

NFV管控平台通过服务化形式,为各业务网元管控提供了通用的资源池化、弹性扩缩容、故障隔离、服务链编排等通用管控能力。通过NFV管控的抽象层,底层转发资源、水位、调度、隔离对业务网元管控透明,业务网元管控可以更加专注于自身业务逻辑的快速演进。

丰富的NFV网元

作为洛神2.0的重要一部分,目前PrivateLink、NAT、SLB等网元产品已经演进到了新一代的NFV架构,并通过新架构获得了很好的弹性和灵活性,后续也会有多的产品基于NFV架构进行构建和演进。

此外,通过NFV平台,第三方厂商可以将其应用移到阿里云,和阿里云自建网元一样获取弹性和调度能力,并在云市场里对云上的客户进行售卖和提供服务,形成一个非常好的生态系统,丰富云上客户的选择。
6.png

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
11天前
|
人工智能 云计算 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。
阿里云引领智算集群网络架构的新一轮变革
|
4天前
|
云安全 人工智能 安全
阿里云稳居公共云网络安全即服务市占率第一
日前,全球领先的IT市场研究和咨询公司IDC发布了《中国公有云网络安全即服务市场份额,2023:规模稳步增长,技术创新引领市场格局》报告。报告显示,阿里云以27.0%的市场份额蝉联榜首。
|
7天前
|
运维 物联网 网络虚拟化
网络功能虚拟化(NFV):定义、原理及应用前景
网络功能虚拟化(NFV):定义、原理及应用前景
23 3
|
10天前
|
人工智能 运维 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。
|
23天前
|
存储 安全 数据安全/隐私保护
在阿里云快速启动Umami玩转网页分析
本文介绍了Umami的基本信息,并通过阿里云计算巢完成了Umami的快速部署,使用者不需要自己下载代码,不需要自己安装复杂的依赖,不需要了解底层技术,只需要在控制台图形界面点击几下鼠标就可以快速部署并启动Umami,非技术同学也能轻松搞定。
|
28天前
|
人工智能 关系型数据库 数据中心
2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新
今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。
|
1月前
|
弹性计算 Kubernetes 网络协议
阿里云弹性网络接口技术的容器网络基础教程
阿里云弹性网络接口技术的容器网络基础教程
阿里云弹性网络接口技术的容器网络基础教程
|
4天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第39天】在数字化时代,网络安全和信息安全成为了我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,帮助读者更好地了解网络安全的重要性,并提供一些实用的技巧和方法来保护自己的信息安全。
15 2
|
5天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第38天】本文将探讨网络安全与信息安全的重要性,包括网络安全漏洞、加密技术和安全意识等方面。我们将通过代码示例和实际操作来展示如何保护网络和信息安全。无论你是个人用户还是企业,都需要了解这些知识以保护自己的网络安全和信息安全。