可编程网络系列(一):可编程网络在阿里云的规模化应用和实践

简介: 通往可预期之路~可编程网络在阿里云的规模化应用和实践!

首图-图标.png


文/ 曾军(子蠡)

前言

2021年云栖大会,阿里云基础设施网络事业部负责人蔡德忠在可预期网络分论坛上指出:今天的网络已经从以Mega-scale DC为代表的软件定义网络,向可预期网络演进。而阿里云的网络随着规模的增长,也要承担起新型社会基础设施的角色,做到可预期,从架构、协议、软硬件、芯片、生态等一系列角度保持持续迭代和演进。


幻灯片2.png

让我们从芯片角度来看云计算时代三代网络的演进


云计算第一个十年,业界主要使用厂家提供的一体化网络设备,从芯片到OS、特性都由厂家研发和供给;


第二个十年,以互联网DC为代表的应用,将网络设备大规模简化,开放的OS仅留下必要特性,增加深度的运维特性,从而极大提升网络的可用性,单芯片为主的设备,可以简单高效支持超大规模部署;


第三个十年,面向未来,我们可以预见,网络可编程将是补上可预期的最后一个关键环节,可编程的ASIC和系统将为基础设施提供端到端的可管可控能力,使网络从以协议为中心转为以软件为中心,更敏捷、更好的支持业务的发展。


从阿里云推出HPCC协议、神龙卡、超融合边缘底座等一系列产品到各大互联网厂商往技术底层深扎,可以预见:未来各大厂的底层将是各自优化,各自实现,而可编程网络,将是通往可预期的必经之路!


No.1

阿里云基础设施可编程之路


幻灯片4.jpeg

时间流转回2016年,阿里云基础设施网络团队关注到学术界和工业界对于可编程芯片和语言的一些突破性进展,由此开始了基础可编程芯片的白盒交换机研发和适配工作,让可编程芯片可以适配运行于阿里云自研网络操作系统(AliNOS)之上。


2017年,我们发现协议无关的芯片Pipeline很适合在网关应用中使用,在大流量的LB场景中找到了应用,于是开始基于白盒可编程设备助力LB场景,推出了SmartLB的内部产品并在大数据场景中使用。


同年年底,基础设施网络团队已看到可编程能力给业务带来的收益,在时任阿里云基础设施高级研究员蔡依群的指导下,阿里云内部立项了大算力和可编程的超融合设备项目,针对多个场景的需求打造了一款灵活的适配多场景的可编程平台。


2018年,团队基于可编程芯片的可视化能力,自研了稳定、低延迟的新一代高速网络拥塞控制HPCC,该项目论文已被世界顶级的网络学术会议ACM SIGCOMM2019录用并为业界广泛所知。同时,与阿里云网络产品团队合作的T级别的可编程网关也开始研发和上线。


2019年,经过一年多的研发,自研的SNA设备开始量产和上线,首先在CDN场景得到了应用,之后开始在IGW等网关项目中也研发完成并开始上线。同时,该平台也开始应用于一些内部平台,如灵活测试。


2020年,可编程平台继续在ENS和VGW场景开始使用,并且在体量上也进一步增长。可编程的ASIC厂家也在逐步增多,阿里云也推出了Lyra编译器,阿里云在SIGCOMM 2020中将该成果分享。SNA平台也开始对FPGA进行了支持和应用。


2021年,可编程网关和平台已经在多个业务场景爆发和加速,形式化验证Aquila也在SICOMM 2021中发布。




No.2

典型案例分享


在五年的可编程网络发展之路上,阿里云基础设施网络团队针对业务的实际痛点和场景价值推出了很多应用,典型案例分享如下:


网关类应用——SmartNAT平台

幻灯片5.jpeg

随着流量剧增,用于该平台的网关服务器的数量和成本也在横向增长。虽然少量的大流可能占80%的流量,但是还有很多突发小流Session。在该场景下,不能简单的用可编程ASIC进行全部的应用替代。


当使用阿里云自研的SNA平台后,我们可以灵活使用ASIC、FPGA和X86的三级卸载模式,从而达到流表和性能的均衡。


该方案除了保持X86的应用灵活度外,还可以解决单核打爆的风险,PPS和时延都有效提升,每一台可编程设备可以替代10台以上的原160G的网关设备,成本大幅下降。


云融合类应用——阿里云洛神超融合云网关

幻灯片6.jpeg

随着云边一体的趋势,阿里云推出了更多的像本地云云展云盒等向边缘扩展的产品形态,此时类似中心云的每网关部署则给业务的灵活性和成本带来了巨大的挑战。


使用阿里云的超融合SNA平台后,我们在可编程ASIC里加入了交换机逻辑,同时在X86内加入了伊洛网元编排平台,该形态下,可以在原有的架构下省去交换机和众多分别部署的网关设备和混合云接入设备。同时,还可以共用原有的管控部署和运营平台,达到性能成本的大幅优化


边缘融合类应用——边缘云的超融合底座

幻灯片7.jpeg

在边缘云节点中,麻雀虽小,五脏俱全,在原有的节点内,我们需要部署大量的云网关、安全、管控设备。边缘云是大量的小规模节点,能给业务应用的服务器就变得很少,如何低成本高性能的部署边缘云,变成了难题。


而基础设施网络的SNA平台此时应运而生,可编程ASIC中灵活加入了交换机、Virtual Switch和网关的offload,FPGA对VPN、TLS等进行进一步卸载,在强大的X86平台内,进行有状态网元和安全、管控的部署,使得两台超融合设备就可以作为边缘云的底座提供T级LB、T级网关的裸金属接入能力的底座,通过二层交换机的扩展,可以支持最多单点768台异构设备接入。



No.3

可编程能力的构建



硬件

幻灯片8.jpeg

可编程能力当然离不开硬件和芯片,阿里云量产的SNA支撑了以边缘和网关为代表的诸多场景的应用,业界首创的大带宽可编程ASIC+大算力结合的设备,保证SKU统一的同时灵活适应各类场景的需求


近两年,各大ASIC厂家都加速了自身的开放性,可编程的平台越来越多。我们可以断定,未来的芯片都会具有或多或少的可编程能力。整个生态的促进让阿里云也将可编程平台的构建推向了更多地方,未来我们会持续推进可编程的开发和应用。


开发效率

幻灯片9.jpeg

可编程平台是一个新技术和新事物,开发工具体系与成熟的平台比还有较大的差距,上图展现了可编程平台在多个维度上我们看到的挑战。针对这些挑战,我们也逐步的研发了如Lyra编译器、Aquila验证器、Meissa测试覆盖等工具和平台,持续对开发效能进行优化。


同时,阿里云研究团队也持续的将我们的研究成果以顶会论文和公开宣讲的方式回馈社区。


设备平台和智能运营

幻灯片10.jpeg

众所周知,一个应用从可用,到大规模部署,中间有着巨大的鸿沟。而在阿里云基础设施,支撑着可编程业务的正是成熟的阿里云自研网络操作系统(AliNOS)和整体的智能运维体系。如上图中所示,阿里云自研网络操作系统(AliNOS)和运维体系已经承载着数万台网络设备的日常运维和一系列行之有效的系统。而可编程设备和应用正是站在巨人的肩膀之上,才可以在业务创新的同时,保证业务的稳定性,和业务运营一起进行大规模部署。

阿里云可编程网络架构

幻灯片11.jpeg

以上介绍的几个环节,共同构建了阿里云可编程网络架构和平台,支撑着上层的三类应用。我们看到的应用实践只是冰山一角,大海之下,更是硬件、平台、研发和运营坚如磐石的积累。



No.4

面向未来


阿里云基础设施网络团队对于可编程平台的积累已经走过了第一个五年,这五年里我们完成了从0到1的积累,在多个业务都通过技术创新拿到了优秀的结果。


未来,阿里云基础设施网络将从三个方面持续推进:


  • 深度优化:从可用、可靠、性能、成本、服务上,抓住应用痛点,持续优化网络服务,赋能应用。
  • 云边一体:从中心到边缘,可编程的范畴将持续扩展。
  • 生态共赢:拥抱生态,和伙伴们一起构建开放的可编程平台和产品。


面向未来,我们坚信可编程平台将会成为可预期网络的重要基石。从网关到交换,从中心到边缘,端到端的控制和运营才会带来真正可预期的网络。



阅读原文戳可编程网络系列(一):可编程网络在阿里云的规模化应用和实践

关注“阿里云基础设施”同名官方微信号,第一时间get新鲜~

相关文章
|
13天前
|
安全 Java 数据处理
Python网络编程基础(Socket编程)多线程/多进程服务器编程
【4月更文挑战第11天】在网络编程中,随着客户端数量的增加,服务器的处理能力成为了一个重要的考量因素。为了处理多个客户端的并发请求,我们通常需要采用多线程或多进程的方式。在本章中,我们将探讨多线程/多进程服务器编程的概念,并通过一个多线程服务器的示例来演示其实现。
|
16天前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
281 0
|
5天前
|
人工智能 监控 安全
构筑安全之盾:云计算环境下的网络安全策略与实践
【4月更文挑战第19天】 在数字化转型的浪潮中,云计算已成为企业IT架构的核心组成部分。然而,随着云服务使用的普及化,网络安全问题亦变得日益复杂和挑战性。本文将深入探讨如何在云计算环境中实施有效的网络安全策略,保障数据的安全性和完整性。我们将从云服务模型出发,分析不同服务模型下的安全威胁,并提出相应的防护措施。文章还将讨论信息安全管理的最佳实践,包括加密技术、身份验证、访问控制以及安全监控等方面,旨在为企业提供一套全面的云计算安全防护框架。
|
7天前
|
网络协议 Java API
深度剖析:Java网络编程中的TCP/IP与HTTP协议实践
【4月更文挑战第17天】Java网络编程重在TCP/IP和HTTP协议的应用。TCP提供可靠数据传输,通过Socket和ServerSocket实现;HTTP用于Web服务,常借助HttpURLConnection或Apache HttpClient。两者结合,构成网络服务基础。Java有多种高级API和框架(如Netty、Spring Boot)简化开发,助力高效、高并发的网络通信。
|
8天前
|
人工智能 Serverless 数据处理
利用阿里云函数计算实现 Serverless 架构的应用
阿里云函数计算是事件驱动的Serverless服务,免服务器管理,自动扩展资源。它降低了基础设施成本,提高了开发效率,支持Web应用、数据处理、AI和定时任务等多种场景。通过实例展示了如何用Python实现图片压缩应用,通过OSS触发函数自动执行。阿里云函数计算在云计算时代助力企业实现快速迭代和高效运营。
44 0
|
8天前
|
监控 安全 网络安全
云端防御:云计算环境中的网络安全策略与实践
【4月更文挑战第15天】 在数字化转型的时代,云计算已成为企业运营不可或缺的技术支撑。然而,随着云服务模式的广泛采纳,网络安全挑战亦随之而来。本文深入探讨了云计算环境下的安全威胁,分析了云服务模型对安全策略的影响,并提出了一系列创新的网络安全防护措施。通过研究最新的加密技术、访问控制机制和持续监控方法,文章旨在为企业提供一个综合性的网络安全框架,以确保其云基础设施和数据的安全性和完整性。
29 8
|
9天前
|
SQL 安全 Java
Java安全编程:防范网络攻击与漏洞
【4月更文挑战第15天】本文强调了Java安全编程的重要性,包括提高系统安全性、降低维护成本和提升用户体验。针对网络攻击和漏洞,提出了防范措施:使用PreparedStatement防SQL注入,过滤和转义用户输入抵御XSS攻击,添加令牌对抗CSRF,限制文件上传类型和大小以防止恶意文件,避免原生序列化并确保数据完整性。及时更新和修复漏洞是关键。程序员应遵循安全编程规范,保障系统安全。
|
13天前
|
云安全 数据采集 安全
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
阿里云提供两种关键安全产品:Web应用防火墙和云防火墙。Web应用防火墙专注网站安全,防护Web攻击、CC攻击和Bot防御,具备流量管理、大数据防御能力和简易部署。云防火墙是SaaS化的网络边界防护,管理南北向和东西向流量,提供访问控制、入侵防御和流量可视化。两者结合可实现全面的网络和应用安全。
阿里云安全产品,Web应用防火墙与云防火墙产品各自作用简介
|
15天前
|
安全 网络安全 网络虚拟化
虚拟网络设备与网络安全:深入分析与实践应用
在数字化时代📲,网络安全🔒成为了企业和个人防御体系中不可或缺的一部分。随着网络攻击的日益复杂和频繁🔥,传统的物理网络安全措施已经无法满足快速发展的需求。虚拟网络设备🖧,作为网络架构中的重要组成部分,通过提供灵活的配置和强大的隔离能力🛡️,为网络安全提供了新的保障。本文将从多个维度深入分析虚拟网络设备是如何保障网络安全的,以及它们的实际意义和应用场景。
|
16天前
|
Python
Python网络编程基础(Socket编程)UDP服务器编程
【4月更文挑战第8天】Python UDP服务器编程使用socket库创建UDP套接字,绑定到特定地址(如localhost:8000),通过`recvfrom`接收客户端数据报,显示数据长度、地址和内容。无连接的UDP协议使得服务器无法主动发送数据,通常需应用层实现请求-响应机制。当完成时,用`close`关闭套接字。

热门文章

最新文章