阿里云基础设施网络亮相SIGCOMM22 - 可预期网络取得重大突破

简介: 阿里云基础设施网络亮相SIGCOMM22 - 可预期网络取得重大突破

首图-图标.png


【阅读原文】戳:阿里云基础设施网络亮相SIGCOMM22 - 可预期网络取得重大突破


本期亮点

连续四年入选SIGCOMM,基础设施网络领域研究创新一骑绝尘。

Solar:继SIGCOMM 2019发布HPCC高性能流控后,高性能RDMA网络方面取得的又一里程碑。

Predictable uFAB:面对日益增长的超大规模算力需求,阿里云在大规模部署RDMA高性能网络实践基础上,在业界首创了端网融合的技术体系,开启了可预期数据中心网络新型架构。

Meissa:有力保障了阿里云基于P4可编程平台的大规模部署的稳定性。


8月24日至26日,全球知名网络顶会SIGCOMM 2022在荷兰阿姆斯特丹举行,阿里云基础设施网络团队代表阿里云参会并发表多个演讲,介绍阿里云在高性能可预期网络方面取得的技术成果。阿里云基础设施网络团队负责人蔡德忠也在大会上作了以“Alibaba Cloud PredNET-Our Journey towards Predictable Network”为主题的演讲,阐述了阿里云在业界首创的端网融合技术体系,在面对日益增长的大算力需求下,通过一系列的硬核技术创新,开启了可预期网络新型架构时代,有力支撑了AI/ML算力集群的高效规模扩展。

1.jpg

阿里云基础设施网络团队负责人蔡德忠作“可预期网络”主题分享


蔡德忠认为,我们已进入了AI时代,而AI/ML需要强大的算力,云计算则是提供这种大算力的高效敏捷的一种有效方式,云计算大力促进了算力的普惠化,让千千万万的中小企业都能在云上享用先进的AI/ML产品和功能,AI/ML已成为云计算的new face(新的招牌)。不过,过去数据中心网络的协议和架构都是为传统IT workload而设计的,面对人工智能、深度学习等浪潮,网络性能严重影响了算力集群的大规模扩展。在过去5年大规模部署RDMA高性能网络实践基础上,阿里云在业界首创了端网融合技术体系,并进行了一系列技术创新,打造了可预期网络新型架构,能提供微秒级网络延时以及带宽保障,可高效支撑万卡级规模GPU算力集群。


0.jpg

作为国际网络通信领域旗舰会议,SIGCOMM对论文的质量和数量要求极高:质量方面要求面向基础性网络问题、提出具有高度创新的解决方案、实现坚实的系统与大规模实验;数量方面每年只录用30-50篇正式会议论文。


由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,因此能在SIGCOMM上发表论文是所有网络通信从业人员至高无上的荣誉。


本次录取的多篇论文简要说明如下:


1. Solar

下一代高性能“计算-存储” RDMA协议,与阿里云存储产品团队历时三年联合打造。这是阿里云继 SIGCOMM 2019上发布HPCC高性能流控之后,在高性能RDMA网络方面取得的又一里程碑。


2. Predictable uFAB

端网融合可预期数据中心网络架构,微秒级别保障租户的可达性,带宽和延迟。面对日益增长的超大规模算力需求,阿里云在大规模部署RDMA高性能网络实践过程中,在业界首创了端网融合的技术体系,并进行了一系列的技术创新,打造了有效支撑AL/ML workload的数据中心新型网络架构。


3. Meissa

大规模全覆盖的可编程网络正确性测试自动生成系统软件,有力保障了阿里云基于P4可编程平台的大规模部署的稳定性。


4. GSO

钉钉音视频新一代Simulcast架构,全量部署钉钉5亿用户,显著提升用户体验。


5. Zhuge

针对即时通信和音视频应用的WiFi网关路由调度框架和算法。


6. GRTN(参与)

边缘云团队打造的全球音视频传输网络项目,基础网络作为项目参与方,提供音视频传输技术的优化和服务保障。


4.png


在此次年度大会分享上,阿里云基础设施网络团队代表马云飞、缪睿和高佳琦也分别针对入选主题进行了宣讲。


缩小后.jpg

2523F8BB-9EA6-4B4E-84CD-06C5C7F3BF21.png

59B61A40-6EB8-433F-95A9-23F38336B92A.png

766DAF8D-E6EA-401E-B4E0-C6ED0095234E.png


2019年,阿里云基础设施网络团队在SIGCOMM首次实现主会论文的历史性突破,到今年,已是连续第四年入选,四年16篇论文,简单的数字背后是阿里云基础设施网络团队一路“仰望星空,砥砺求实”的结果,也彰显了团队深厚的技术沉淀和强大的研发实力。在基础网络探究创新的路上,他们一直在前进~



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。


相关文章
|
13天前
|
云安全 人工智能 安全
|
26天前
|
云安全 人工智能 安全
再登榜首!阿里云蝉联中国公有云网络安全即服务市场份额第一
再登榜首!阿里云蝉联中国公有云网络安全即服务市场份额第一
40 5
|
27天前
|
弹性计算 监控 数据库
制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程
本文通过一个制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程,展示了企业级应用上云的实践方法与显著优势,包括弹性计算资源、高可靠性、数据安全及降低维护成本等,为企业数字化转型提供参考。
52 5
|
1月前
|
云安全 人工智能 安全
阿里云稳居公共云网络安全即服务市占率第一
日前,全球领先的IT市场研究和咨询公司IDC发布了《中国公有云网络安全即服务市场份额,2023:规模稳步增长,技术创新引领市场格局》报告。报告显示,阿里云以27.0%的市场份额蝉联榜首。
|
1月前
|
人工智能 运维 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。
|
23天前
|
弹性计算 安全 容灾
阿里云DTS踩坑经验分享系列|使用VPC数据通道解决网络冲突问题
阿里云DTS作为数据世界高速传输通道的建造者,每周为您分享一个避坑技巧,助力数据之旅更加快捷、便利、安全。本文介绍如何使用VPC数据通道解决网络冲突问题。
77 0
|
6天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
43 17
|
17天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
18天前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
40 10