再续前缘 阿里云基础设施网络团队ACM SIGCOMM 2021续创佳绩

简介: SIGCOMM 2021,阿里云网络以三篇论文命中的骄人战绩向世人展示着来自东方的创新风暴,也续写了阿里云基础设施网络团队从2019年开始与SIGCOMM 不间断的“缘分”!
来源 | 阿里云基础设施微信公众号

640 (1).gif

本期精彩

  • 连续三年入选国际顶会,彰显了阿里云基础设施网络团队的技术沉淀和强大的研发实力
  • SNA计算平台已在阿里云各个场景规模部署,例如网络可视化、边缘云超融合网关、安全、高性能、以及云网关等。
  • XLINK已集成在手淘完成了大规模测试,测试结果优异,即将开源XLINK的整体架构和协议,将着力与整个业界一同打造多路径QUIC协议,为消费者提供更好的体验。

近日,SIGCOMM 2021论文录取结果公布,阿里云网络以三篇论文命中的骄人战绩向世人展示着来自东方的创新风暴,也续写了阿里云基础设施网络团队从2019年开始与SIGCOMM 不间断的“缘分”!

SIGCOMM,全称Special Interest Group on Data Communication,是目前国际通信网络领域的顶尖会议,也是全球最顶尖科研机构、高校和互联网公司展示自身最先进技术和经验,带领网络技术各个领域向前发展的年度盛会。2019年,阿里云基础设施网络团队在SIGCOMM上实现了主会论文的首次历史性突破,2020年,4篇论文入选震动了网络界,今年又再中三元。连续三年入选国际顶会,也彰显了阿里云基础设施网络团队的技术沉淀和强大的研发实力。

image.png

与一般学术论文不同的是,此次入选的三篇论文不但有创新性想法,更重要的是将理论落地,运用在阿里的具体产品中,为用户带来技术普惠。下面我们将近距离看一下,这三颗阿里网络技术的“明珠”到底凭什么秘诀得到SIGCOMM评委的青睐。

Aquila:阿里云可编程异构计算验证器

可编程交换芯片(programmable switching ASIC)自 2015年问世以来,就受到了全球几乎所有云网络公司及科研学术界的极大关注与欢迎。它可以看做是一种异构计算硬件,其本质是通过对交换机芯片的编程,将原本依赖CPU计算的软件版网络应用“卸载”到交换芯片硬件上,从而获得高达T级的网络数据包处理能力,极大提升网络应用的带宽且降低延迟;同时,由于可编程芯片的灵活可编程性,开发人员可以像软件开发一样灵活地的定制交换芯片的处理逻辑。当前的主流芯片厂商已纷纷推出了各自的可编程芯片,利用可编程芯片来加速基础设施的处理能力已被认为是未来一条重要的技术方向。

然而,在过去几年,虽然学术界同仁发表了大量利用可编程芯片实现各种应用的论文,却从未看到任何云网络公司大规模部署可编程芯片的实例。究其原因,主要由于该技术尚属于较为前沿阶段,虽然其价值被广泛认可,但其部署效率、稳定性等都存在诸多技术挑战和开放性难题,因此令很多科技公司望而却步。

阿里云基础设施网络团队作为可编程网络领域的早期发起者和推动者,多年以来一直致力于在整个可编程网络的应用和生态平台上做出突破性的工作,带动整个产业向前发展。在阿里云诸多工作中,“太玄OS”可编程网络开发、验证、测试和发布平台成为了一个在学术和产业落地双丰收的明星项目(如图1所示)。在SIGCOMM20,太玄OS发表了自己的跨平台编程语言和编译器Lyra(“Lyra: A Cross-Platform Language and Compiler for Data Plane Programming on Heterogeneous ASICs”),阐明了可编程网络领域在编程抽象层面的巨大挑战和揭示了阿里云的解决方案。

image.png
图1|阿里云基础设施网络团队自主研发的“太玄OS”可编程网络异构计算平台

今年,阿里云基础设施网络团队又发表了Lyra的姊妹篇Aquila (“Aquila: A Practically Usable Verification System for Production-Scale Programmable Data Planes ”)来介绍阿里对可编程网络程序正确性保障方面的独树一帜的创新和大规模的落地经验。Aquila的目标是利用形式化验证的方法来发现异构环境下底层程序的bug,以避免系统上线后的稳定性风险。它通过实际的运行和部署经验指出了目前学术界在这个方面的工作的不足,并且通过自主研发的系统解决了如:表达性、可扩展性、可追溯性和验证器自证清白能力等在业界悬而未决的问题。Aquila已经在阿里云ENS/CDN的边缘计算场景中大量使用,为阿里边缘云的稳定性保驾护航。

XGW:阿里云可编程硬件网关

阿里云在可编程网络领域的另一个重要举措就是打造自主可控的以SNA (Smart Networking Appliance) 硬件和AliNOS (Alibaba Network Operating System)软件为基础的软硬件一体化的可编程计算平台和在这个平台上的应用。图2展示了整个阿里自研SNA可编程计算平台的概览。SNA平台的软件层运行阿里自研的网络操作系统AliNOS,硬件层包含了可编程芯片、FPGA、x86以及灵活插口等。SNA作为底层设备,上面由平台能力如:监控、交付/变更、太玄编译/验证,以及测试等保证SNA的运营效率与稳定性。目前,SNA计算平台已在阿里云各个场景规模部署,例如网络可视化、边缘云超融合网关、安全、高性能、以及云网关等。在SIGCOMM20中,阿里云基础设施网络团队发表的“NetSeer:Flow Event Telemetry on Programmable Data Plane”就已经率先揭开了阿里云在可编程网络应用上的冰山一角。

image.png
图2|阿里云基础设施网络团队自主研发的可编程网关软硬件体系

今年阿里云基础设施网络团队和网络产品团队(洛神云网络)共同合作的“Sailfish: Accelerating Cloud-Scale Multi-Tenant Multi-Service Gateways with Programmable Switches”被SIGCOMM21录取,继续着阿里在可编程网络应用方面的领军地位。这个内部代号为XGW (eXtendable GateWay) 的云网关系统是利用SNA这样的平台来替代CPU,提高转发性能的同时减小部署成本的典范。在阿里云网络技术和产品同学的共同努力下,XGW已经实现了超大规模部署,为亿万阿里云用户提供了高性能,高质量的云网络服务。

XLINK:阿里巴巴主导的多路径QUIC方案

除了云网络领域,今年阿里巴巴也在移动网络传输领域发出了“时代最强音”。阿里巴巴在IETF QUIC工作组提出自己的多路径草案并且广受关注之后,由达摩院XG实验室、手淘淘系技术、阿里云基础设施网络团队共同合作研发的XLINK(“XLINK: QoE-Driven Multi-Path QUIC Transport in Large-scale Video Services”)也被SIGCOMM21正式接收。

image.png
图3|XLINK的整体系统架构

QUIC技术是由Google提出, 并于2017年在SIGCOMM会议上发表了QUIC相关论文, 引起了业界的巨大反响, 今年IETF QUIC 1.0标准工作正式完成, 下一代HTTP协议HTTP3正是基于QUIC来实现的。可以说, QUIC是目前移动互联网中最核心和关键的技术, 现如今, 超过50%的Chrome浏览器流量和75%的Facebook流量都在使用QUIC进行传输。 经过过去几年的不懈努力, 阿里巴巴从QUIC技术的追随者快速成长为QUIC技术的创新者, 并在多路径QUIC技术上取得了突破, XLINK相关论文已经被顶级学术会议SIGCOMM 2021正式接收, 这也是SIGCOMM会议历史上第一篇关于多路径QUIC的文章。

XLINK已经集成在手淘完成了大规模测试, 测试结果表明, XLINK在弱网下使用可以实现短视频下载时间降低50%, 首帧加载时间降低32%, 视频卡顿率降低66%, 额外的流量成本降低85%。此外, 在高铁上, XLINK的用户可以同时连接高铁WiFi与手机LTE, 在高速移动的情况下仍然保持流畅的视频观看体验。另外,阿里巴巴也即将开源XLINK的整体架构和协议,将着力与整个业界一同打造多路径QUIC协议,为消费者提供更好的体验。

俗话说“十全十美”,2021年对于阿里网络技术人来说也是一个圆满的一年。从2019开始,截止目前,阿里网络技术已经有10篇SIGCOMM论文被录取。网络领域众多国际专家纷纷被阿里论文“圈粉”,因为不但有创新大胆超前的思维,更重要的是阿里坚持技术创新,把技术与实际应用场景相结合,让技术“走出”实验室,实现“技术普惠”。

除了SIGCOMM,今年阿里云基础设施网也在系统领域顶级会议USENIX ATC发表了论文“Hashing Linearity Enables Relative Path Control in Data Centers”来介绍已经在阿里网络自研交换机部署的交换芯片hash算法特性分析,以及DCMR多路径故障恢复的方法,这也同样是阿里网络技术创新和落地相融合的代言。

相关文章
|
2月前
|
弹性计算 监控 开发工具
【阿里云弹性计算】阿里云ECS的网络优化实践:VPC配置与网络性能提升
【5月更文挑战第29天】阿里云ECS通过虚拟私有云(VPC)提供高性能、安全的网络环境。VPC允许用户自定义IP地址、路由规则和安全组。配置包括:创建VPC和交换机,设定安全组,然后创建ECS实例并绑定。优化网络性能涉及规划网络拓扑、优化路由、启用网络加速功能(如ENI和EIP)及监控网络性能。示例代码展示了使用Python SDK创建VPC和交换机的过程。
288 3
|
9天前
|
运维 Cloud Native 测试技术
《阿里云产品四月刊》—提升团队工程交付能力,从“看见”工程活动和研发模式开始(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—提升团队工程交付能力,从“看见”工程活动和研发模式开始(1)
|
9天前
|
Cloud Native 数据库 持续交付
《阿里云产品四月刊》—提升团队工程交付能力,从“看见”工程活动和研发模式开始(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—提升团队工程交付能力,从“看见”工程活动和研发模式开始(2)
|
9天前
|
Cloud Native 数据库 数据采集
《阿里云产品四月刊》—提升团队工程交付能力,从“看见”工程活动和研发模式开始(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—提升团队工程交付能力,从“看见”工程活动和研发模式开始(3)
|
19天前
|
Kubernetes Cloud Native 开发者
阿里云网络发布 alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
**阿里云发布开源版ALB控制器v1.2.0,对齐商业版ALB Ingress Controller v2.10.0。新版本增强了功能特性,提升了用户体验,并提供了最佳实践。功能更新包括自定义标签、QUIC协议支持、转发规则和安全策略等。此外,还引入了ReadinessGate实现滚动升级时的平滑上线和Prestop钩子确保平滑下线。用户可从GitHub获取开源代码,通过Docker Hub拉取镜像,开始使用alibaba-load-balancer-controller v1.2.0。**
108 3
阿里云网络发布 alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
|
9天前
|
存储 机器学习/深度学习 弹性计算
阿里云ECS计算型c8i服务器测评_网络PPS_云盘IOPS性能参数
阿里云ECS计算型c8i实例采用Intel Xeon Emerald Rapids或Sapphire Rapids CPU,主频2.7 GHz起,支持CIPU架构,提供强大计算、存储、网络和安全性能。适用于机器学习、数据分析等场景。实例规格从2核到192核,内存比例1:2,支持ESSD云盘,网络带宽高达100 Gbit/s,具备IPv4/IPv6,vTPM和内存加密功能。详细规格参数表包括不同实例的vCPU、内存、网络带宽、IOPS等信息,最高可达100万PPS和100万IOPS。
|
10天前
|
敏捷开发 缓存 测试技术
阿里云云效产品使用问题之经过任务分配后,如何查看项目团队的资源日历
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
10天前
|
存储 人工智能 运维
超大规模云网络技术新突破!阿里云斩获中国自动化学会科技进步一等奖
阿里云携手浙江大学、上海交大联合攻坚的超大规模云网络技术及应用成果,斩获中国自动化学会(CAA)科技进步奖一等奖。该成果实现了超大规模云网络调控技术的高性能突破,将十万级任务配置下发提升至秒级的超高水平,填补了该项技术的国内空白。
|
10天前
|
存储 弹性计算 网络协议
阿里云服务器ECS计算型c7实例详解_网络PPS_云盘IOPS性能参数
阿里云ECS计算型c7实例,基于三代神龙架构,采用Intel Ice Lake CPU,2.7 GHz基频,3.5 GHz全核睿频,提供高性能计算、存储和网络能力。支持vTPM和Enclave特性,适用于高网络负载、游戏、数据分析等场景。实例规格从2核4GB至128核256GB,最大网络收发包可达2400万PPS。详细规格及性能参数见官方页面。
|
17天前
|
Kubernetes Cloud Native 开发者
阿里云网络发布云原生网关 alibaba-load-balancer-controller v1.2.0,持续拥抱开源生态
alibaba-load-balancer-controller开源版本正式推出v1.2.0,能力对齐ALB Ingress Controller商业版v2.10.0。