来源 | 阿里云基础设施微信公众号
本期精彩
- 连续三年入选国际顶会,彰显了阿里云基础设施网络团队的技术沉淀和强大的研发实力
- SNA计算平台已在阿里云各个场景规模部署,例如网络可视化、边缘云超融合网关、安全、高性能、以及云网关等。
- XLINK已集成在手淘完成了大规模测试,测试结果优异,即将开源XLINK的整体架构和协议,将着力与整个业界一同打造多路径QUIC协议,为消费者提供更好的体验。
近日,SIGCOMM 2021论文录取结果公布,阿里云网络以三篇论文命中的骄人战绩向世人展示着来自东方的创新风暴,也续写了阿里云基础设施网络团队从2019年开始与SIGCOMM 不间断的“缘分”!
SIGCOMM,全称Special Interest Group on Data Communication,是目前国际通信网络领域的顶尖会议,也是全球最顶尖科研机构、高校和互联网公司展示自身最先进技术和经验,带领网络技术各个领域向前发展的年度盛会。2019年,阿里云基础设施网络团队在SIGCOMM上实现了主会论文的首次历史性突破,2020年,4篇论文入选震动了网络界,今年又再中三元。连续三年入选国际顶会,也彰显了阿里云基础设施网络团队的技术沉淀和强大的研发实力。
与一般学术论文不同的是,此次入选的三篇论文不但有创新性想法,更重要的是将理论落地,运用在阿里的具体产品中,为用户带来技术普惠。下面我们将近距离看一下,这三颗阿里网络技术的“明珠”到底凭什么秘诀得到SIGCOMM评委的青睐。
Aquila:阿里云可编程异构计算验证器
可编程交换芯片(programmable switching ASIC)自 2015年问世以来,就受到了全球几乎所有云网络公司及科研学术界的极大关注与欢迎。它可以看做是一种异构计算硬件,其本质是通过对交换机芯片的编程,将原本依赖CPU计算的软件版网络应用“卸载”到交换芯片硬件上,从而获得高达T级的网络数据包处理能力,极大提升网络应用的带宽且降低延迟;同时,由于可编程芯片的灵活可编程性,开发人员可以像软件开发一样灵活地的定制交换芯片的处理逻辑。当前的主流芯片厂商已纷纷推出了各自的可编程芯片,利用可编程芯片来加速基础设施的处理能力已被认为是未来一条重要的技术方向。
然而,在过去几年,虽然学术界同仁发表了大量利用可编程芯片实现各种应用的论文,却从未看到任何云网络公司大规模部署可编程芯片的实例。究其原因,主要由于该技术尚属于较为前沿阶段,虽然其价值被广泛认可,但其部署效率、稳定性等都存在诸多技术挑战和开放性难题,因此令很多科技公司望而却步。
阿里云基础设施网络团队作为可编程网络领域的早期发起者和推动者,多年以来一直致力于在整个可编程网络的应用和生态平台上做出突破性的工作,带动整个产业向前发展。在阿里云诸多工作中,“太玄OS”可编程网络开发、验证、测试和发布平台成为了一个在学术和产业落地双丰收的明星项目(如图1所示)。在SIGCOMM20,太玄OS发表了自己的跨平台编程语言和编译器Lyra(“Lyra: A Cross-Platform Language and Compiler for Data Plane Programming on Heterogeneous ASICs”),阐明了可编程网络领域在编程抽象层面的巨大挑战和揭示了阿里云的解决方案。
图1|阿里云基础设施网络团队自主研发的“太玄OS”可编程网络异构计算平台
今年,阿里云基础设施网络团队又发表了Lyra的姊妹篇Aquila (“Aquila: A Practically Usable Verification System for Production-Scale Programmable Data Planes ”)来介绍阿里对可编程网络程序正确性保障方面的独树一帜的创新和大规模的落地经验。Aquila的目标是利用形式化验证的方法来发现异构环境下底层程序的bug,以避免系统上线后的稳定性风险。它通过实际的运行和部署经验指出了目前学术界在这个方面的工作的不足,并且通过自主研发的系统解决了如:表达性、可扩展性、可追溯性和验证器自证清白能力等在业界悬而未决的问题。Aquila已经在阿里云ENS/CDN的边缘计算场景中大量使用,为阿里边缘云的稳定性保驾护航。
XGW:阿里云可编程硬件网关
阿里云在可编程网络领域的另一个重要举措就是打造自主可控的以SNA (Smart Networking Appliance) 硬件和AliNOS (Alibaba Network Operating System)软件为基础的软硬件一体化的可编程计算平台和在这个平台上的应用。图2展示了整个阿里自研SNA可编程计算平台的概览。SNA平台的软件层运行阿里自研的网络操作系统AliNOS,硬件层包含了可编程芯片、FPGA、x86以及灵活插口等。SNA作为底层设备,上面由平台能力如:监控、交付/变更、太玄编译/验证,以及测试等保证SNA的运营效率与稳定性。目前,SNA计算平台已在阿里云各个场景规模部署,例如网络可视化、边缘云超融合网关、安全、高性能、以及云网关等。在SIGCOMM20中,阿里云基础设施网络团队发表的“NetSeer:Flow Event Telemetry on Programmable Data Plane”就已经率先揭开了阿里云在可编程网络应用上的冰山一角。
图2|阿里云基础设施网络团队自主研发的可编程网关软硬件体系
今年阿里云基础设施网络团队和网络产品团队(洛神云网络)共同合作的“Sailfish: Accelerating Cloud-Scale Multi-Tenant Multi-Service Gateways with Programmable Switches”被SIGCOMM21录取,继续着阿里在可编程网络应用方面的领军地位。这个内部代号为XGW (eXtendable GateWay) 的云网关系统是利用SNA这样的平台来替代CPU,提高转发性能的同时减小部署成本的典范。在阿里云网络技术和产品同学的共同努力下,XGW已经实现了超大规模部署,为亿万阿里云用户提供了高性能,高质量的云网络服务。
XLINK:阿里巴巴主导的多路径QUIC方案
除了云网络领域,今年阿里巴巴也在移动网络传输领域发出了“时代最强音”。阿里巴巴在IETF QUIC工作组提出自己的多路径草案并且广受关注之后,由达摩院XG实验室、手淘淘系技术、阿里云基础设施网络团队共同合作研发的XLINK(“XLINK: QoE-Driven Multi-Path QUIC Transport in Large-scale Video Services”)也被SIGCOMM21正式接收。
图3|XLINK的整体系统架构
QUIC技术是由Google提出, 并于2017年在SIGCOMM会议上发表了QUIC相关论文, 引起了业界的巨大反响, 今年IETF QUIC 1.0标准工作正式完成, 下一代HTTP协议HTTP3正是基于QUIC来实现的。可以说, QUIC是目前移动互联网中最核心和关键的技术, 现如今, 超过50%的Chrome浏览器流量和75%的Facebook流量都在使用QUIC进行传输。 经过过去几年的不懈努力, 阿里巴巴从QUIC技术的追随者快速成长为QUIC技术的创新者, 并在多路径QUIC技术上取得了突破, XLINK相关论文已经被顶级学术会议SIGCOMM 2021正式接收, 这也是SIGCOMM会议历史上第一篇关于多路径QUIC的文章。
XLINK已经集成在手淘完成了大规模测试, 测试结果表明, XLINK在弱网下使用可以实现短视频下载时间降低50%, 首帧加载时间降低32%, 视频卡顿率降低66%, 额外的流量成本降低85%。此外, 在高铁上, XLINK的用户可以同时连接高铁WiFi与手机LTE, 在高速移动的情况下仍然保持流畅的视频观看体验。另外,阿里巴巴也即将开源XLINK的整体架构和协议,将着力与整个业界一同打造多路径QUIC协议,为消费者提供更好的体验。
俗话说“十全十美”,2021年对于阿里网络技术人来说也是一个圆满的一年。从2019开始,截止目前,阿里网络技术已经有10篇SIGCOMM论文被录取。网络领域众多国际专家纷纷被阿里论文“圈粉”,因为不但有创新大胆超前的思维,更重要的是阿里坚持技术创新,把技术与实际应用场景相结合,让技术“走出”实验室,实现“技术普惠”。
除了SIGCOMM,今年阿里云基础设施网也在系统领域顶级会议USENIX ATC发表了论文“Hashing Linearity Enables Relative Path Control in Data Centers”来介绍已经在阿里网络自研交换机部署的交换芯片hash算法特性分析,以及DCMR多路径故障恢复的方法,这也同样是阿里网络技术创新和落地相融合的代言。