阿里云基础设施网络亮相SIGCOMM22 - 可预期网络取得重大突破

简介: 阿里云基础设施网络亮相SIGCOMM22 - 可预期网络取得重大突破

首图-图标.png


【阅读原文】戳:阿里云基础设施网络亮相SIGCOMM22 - 可预期网络取得重大突破


本期亮点

连续四年入选SIGCOMM,基础设施网络领域研究创新一骑绝尘。

Solar:继SIGCOMM 2019发布HPCC高性能流控后,高性能RDMA网络方面取得的又一里程碑。

Predictable uFAB:面对日益增长的超大规模算力需求,阿里云在大规模部署RDMA高性能网络实践基础上,在业界首创了端网融合的技术体系,开启了可预期数据中心网络新型架构。

Meissa:有力保障了阿里云基于P4可编程平台的大规模部署的稳定性。


8月24日至26日,全球知名网络顶会SIGCOMM 2022在荷兰阿姆斯特丹举行,阿里云基础设施网络团队代表阿里云参会并发表多个演讲,介绍阿里云在高性能可预期网络方面取得的技术成果。阿里云基础设施网络团队负责人蔡德忠也在大会上作了以“Alibaba Cloud PredNET-Our Journey towards Predictable Network”为主题的演讲,阐述了阿里云在业界首创的端网融合技术体系,在面对日益增长的大算力需求下,通过一系列的硬核技术创新,开启了可预期网络新型架构时代,有力支撑了AI/ML算力集群的高效规模扩展。

1.jpg

阿里云基础设施网络团队负责人蔡德忠作“可预期网络”主题分享


蔡德忠认为,我们已进入了AI时代,而AI/ML需要强大的算力,云计算则是提供这种大算力的高效敏捷的一种有效方式,云计算大力促进了算力的普惠化,让千千万万的中小企业都能在云上享用先进的AI/ML产品和功能,AI/ML已成为云计算的new face(新的招牌)。不过,过去数据中心网络的协议和架构都是为传统IT workload而设计的,面对人工智能、深度学习等浪潮,网络性能严重影响了算力集群的大规模扩展。在过去5年大规模部署RDMA高性能网络实践基础上,阿里云在业界首创了端网融合技术体系,并进行了一系列技术创新,打造了可预期网络新型架构,能提供微秒级网络延时以及带宽保障,可高效支撑万卡级规模GPU算力集群。


0.jpg

作为国际网络通信领域旗舰会议,SIGCOMM对论文的质量和数量要求极高:质量方面要求面向基础性网络问题、提出具有高度创新的解决方案、实现坚实的系统与大规模实验;数量方面每年只录用30-50篇正式会议论文。


由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,因此能在SIGCOMM上发表论文是所有网络通信从业人员至高无上的荣誉。


本次录取的多篇论文简要说明如下:


1. Solar

下一代高性能“计算-存储” RDMA协议,与阿里云存储产品团队历时三年联合打造。这是阿里云继 SIGCOMM 2019上发布HPCC高性能流控之后,在高性能RDMA网络方面取得的又一里程碑。


2. Predictable uFAB

端网融合可预期数据中心网络架构,微秒级别保障租户的可达性,带宽和延迟。面对日益增长的超大规模算力需求,阿里云在大规模部署RDMA高性能网络实践过程中,在业界首创了端网融合的技术体系,并进行了一系列的技术创新,打造了有效支撑AL/ML workload的数据中心新型网络架构。


3. Meissa

大规模全覆盖的可编程网络正确性测试自动生成系统软件,有力保障了阿里云基于P4可编程平台的大规模部署的稳定性。


4. GSO

钉钉音视频新一代Simulcast架构,全量部署钉钉5亿用户,显著提升用户体验。


5. Zhuge

针对即时通信和音视频应用的WiFi网关路由调度框架和算法。


6. GRTN(参与)

边缘云团队打造的全球音视频传输网络项目,基础网络作为项目参与方,提供音视频传输技术的优化和服务保障。


4.png


在此次年度大会分享上,阿里云基础设施网络团队代表马云飞、缪睿和高佳琦也分别针对入选主题进行了宣讲。


缩小后.jpg

2523F8BB-9EA6-4B4E-84CD-06C5C7F3BF21.png

59B61A40-6EB8-433F-95A9-23F38336B92A.png

766DAF8D-E6EA-401E-B4E0-C6ED0095234E.png


2019年,阿里云基础设施网络团队在SIGCOMM首次实现主会论文的历史性突破,到今年,已是连续第四年入选,四年16篇论文,简单的数字背后是阿里云基础设施网络团队一路“仰望星空,砥砺求实”的结果,也彰显了团队深厚的技术沉淀和强大的研发实力。在基础网络探究创新的路上,他们一直在前进~



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。


相关文章
|
4月前
|
存储 运维 监控
云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项
阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。
|
6月前
|
供应链 安全 网络协议
|
6月前
|
边缘计算 安全 算法
阿里云CDN:构建全球化智能加速网络的数字高速公路
阿里云CDN构建全球化智能加速网络,拥有2800多个边缘节点覆盖67个国家,实现毫秒级网络延迟。其三级节点拓扑结构与智能路由系统,结合流量预测模型,确保高命中率。全栈式加速技术包括QUIC协议优化和Brotli压缩算法,保障安全与性能。五层防御机制有效抵御攻击,行业解决方案涵盖视频、物联网及游戏等领域,支持新兴AR/VR与元宇宙需求,持续推动数字内容分发技术边界。
399 13
|
5月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
183 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
5月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
795 2
|
6月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
273 6
|
10月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
226 17
|
10月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
178 10
|
10月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。

热门文章

最新文章