【阅读原文】戳:阿里云基础设施网络亮相SIGCOMM22 - 可预期网络取得重大突破
本期亮点
● 连续四年入选SIGCOMM,基础设施网络领域研究创新一骑绝尘。
● Solar:继SIGCOMM 2019发布HPCC高性能流控后,高性能RDMA网络方面取得的又一里程碑。
● Predictable uFAB:面对日益增长的超大规模算力需求,阿里云在大规模部署RDMA高性能网络实践基础上,在业界首创了端网融合的技术体系,开启了可预期数据中心网络新型架构。
● Meissa:有力保障了阿里云基于P4可编程平台的大规模部署的稳定性。
8月24日至26日,全球知名网络顶会SIGCOMM 2022在荷兰阿姆斯特丹举行,阿里云基础设施网络团队代表阿里云参会并发表多个演讲,介绍阿里云在高性能可预期网络方面取得的技术成果。阿里云基础设施网络团队负责人蔡德忠也在大会上作了以“Alibaba Cloud PredNET-Our Journey towards Predictable Network”为主题的演讲,阐述了阿里云在业界首创的端网融合技术体系,在面对日益增长的大算力需求下,通过一系列的硬核技术创新,开启了可预期网络新型架构时代,有力支撑了AI/ML算力集群的高效规模扩展。
阿里云基础设施网络团队负责人蔡德忠作“可预期网络”主题分享
蔡德忠认为,我们已进入了AI时代,而AI/ML需要强大的算力,云计算则是提供这种大算力的高效敏捷的一种有效方式,云计算大力促进了算力的普惠化,让千千万万的中小企业都能在云上享用先进的AI/ML产品和功能,AI/ML已成为云计算的new face(新的招牌)。不过,过去数据中心网络的协议和架构都是为传统IT workload而设计的,面对人工智能、深度学习等浪潮,网络性能严重影响了算力集群的大规模扩展。在过去5年大规模部署RDMA高性能网络实践基础上,阿里云在业界首创了端网融合技术体系,并进行了一系列技术创新,打造了可预期网络新型架构,能提供微秒级网络延时以及带宽保障,可高效支撑万卡级规模GPU算力集群。
作为国际网络通信领域旗舰会议,SIGCOMM对论文的质量和数量要求极高:质量方面要求面向基础性网络问题、提出具有高度创新的解决方案、实现坚实的系统与大规模实验;数量方面每年只录用30-50篇正式会议论文。
由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,因此能在SIGCOMM上发表论文是所有网络通信从业人员至高无上的荣誉。
本次录取的多篇论文简要说明如下:
1. Solar
下一代高性能“计算-存储” RDMA协议,与阿里云存储产品团队历时三年联合打造。这是阿里云继 SIGCOMM 2019上发布HPCC高性能流控之后,在高性能RDMA网络方面取得的又一里程碑。
2. Predictable uFAB
端网融合可预期数据中心网络架构,微秒级别保障租户的可达性,带宽和延迟。面对日益增长的超大规模算力需求,阿里云在大规模部署RDMA高性能网络实践过程中,在业界首创了端网融合的技术体系,并进行了一系列的技术创新,打造了有效支撑AL/ML workload的数据中心新型网络架构。
3. Meissa
大规模全覆盖的可编程网络正确性测试自动生成系统软件,有力保障了阿里云基于P4可编程平台的大规模部署的稳定性。
4. GSO
钉钉音视频新一代Simulcast架构,全量部署钉钉5亿用户,显著提升用户体验。
5. Zhuge
针对即时通信和音视频应用的WiFi网关路由调度框架和算法。
6. GRTN(参与)
边缘云团队打造的全球音视频传输网络项目,基础网络作为项目参与方,提供音视频传输技术的优化和服务保障。
在此次年度大会分享上,阿里云基础设施网络团队代表马云飞、缪睿和高佳琦也分别针对入选主题进行了宣讲。
2019年,阿里云基础设施网络团队在SIGCOMM首次实现主会论文的历史性突破,到今年,已是连续第四年入选,四年16篇论文,简单的数字背后是阿里云基础设施网络团队一路“仰望星空,砥砺求实”的结果,也彰显了团队深厚的技术沉淀和强大的研发实力。在基础网络探究创新的路上,他们一直在前进~
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。