创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022

简介: 创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022


近日,国际权威网络顶会SIGCOMM 2022在荷兰举行,55篇顶级学术成果出炉,阿里云共计有6篇高质量论文被主会收录,创下了国内历届参会企业的最好成绩,成为本届入选论文最多的科技公司。


入选的论文包括阿里云自研的下一代高性能RDMA网络协议Solar、端网融合可预期数据中心网络架构、可编程网络稳定性保障系统等。


阿里云基础设施网络负责人蔡德忠在SIGCOMM2022上发表“可预期网络”主题演讲


始于1977年的ACM SIGCOMM是计算机网络领域资历最老的顶级学术会议,对论文的质量和数量要求极高,采用双盲审稿,每年录取率在10%-20%之间。


被SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,从计算机教科书里的TCP/IP网络协议到云数据中心经典架构,SIGCOMM见证了众多计算机网络关键技术的诞生与发展。


从2019年开始,阿里巴巴已连续4年累计16篇论文入选SIGCOMM,是国内被收录数量最多的科技公司。而在2019年之前SIGCOMM近50年的历史中,来自中国大陆的企业和高校总共也仅有10余篇论文入围 。


本次入选的论文集中在网络技术在云端场景的应用和创新上:


Solar是阿里云打造的下一代高性能RDMA网络协议,可将阿里云块存储IO延迟降低20-69%,单CPU核吞吐提升78%;


Predictable uFAB是端网融合可预期数据中心网络架构,可微秒级别保障租户的可达性、带宽和延迟;


Meissa是大规模全覆盖的可编程网络正确性测试自动生成系统,可将边缘云网关研发测试的覆盖率从30%提升到100%;


GSO-simulcast是下一代音视频会议全局多流码率调度系统,帮助视频卡顿率降低35%,音频卡顿率降低50%,会议满意度提升6%;


GRTN是全球音视频传输网络项目,提供音视频传输技术的优化和服务保障;


Zhuge则是针对即时通信和音视频应用的WiFi网关路由调度框架和算法。


SIGCOMM2022  Technical Session:

Programmable Data Planes


“过去数据中心网络的协议和架构都是为传统IT workload而设计的,面对人工智能、深度学习等浪潮,网络性能严重影响了算力集群的大规模扩展,数据中心网络技术亟待变革。”


阿里云基础设施网络团队负责人蔡德忠在大会上表示,阿里云在过去5 年大规模部署RDMA高性能网络实践基础上,在业界首创了端网融合技术体系,并进行了一系列技术创新,打造了可预期网络新型架构,能够提供微秒级网络延时,以及带宽保障,高效支撑万卡级规模GPU算力集群。


今年年初,阿里巴巴入选了AI2000评选的全球十大计算机网络研究机构。



自提出做深基础战略以来,阿里云陆续推出了自研芯片、磐久服务器、交换机、光模块、数据中心内RDMA网络等,完善云基础设施的最后一环,实现了以飞天操作系统为中心的双向生长,从芯片、部件到整机的技术创新和全栈自研。

目录
相关文章
|
8月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
563 1
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
VSCode:code helper进程导致Mac的CPU使用率很高
VSCode:code helper进程导致Mac的CPU使用率很高
1644 0
VSCode:code helper进程导致Mac的CPU使用率很高
|
存储 人工智能 PyTorch
【AI系统】张量并行
在大模型训练中,单个设备难以满足需求,模型并行技术应运而生。其中,张量并行(Tensor Parallelism, TP)将模型内部的参数和计算任务拆分到不同设备上,特别适用于大规模模型。本文介绍了张量并行的基本概念、实现方法及其在矩阵乘法、Transformer、Embedding和Cross Entropy Loss等场景中的应用,以及通过PyTorch DeviceMesh实现TP的具体步骤。
1406 11
【AI系统】张量并行
|
人工智能 并行计算 云计算
从UALink近期发展再看GPU Scale Up的互连方向
ALink System的目标是聚焦GPU算力需求、驱动云计算定义的开放生态,形成智算超节点的竞争力。
|
vr&ar 数据安全/隐私保护 网络架构
一文带你了解WiFi7,比WiFi6强多了!
【10月更文挑战第2天】
3095 1
一文带你了解WiFi7,比WiFi6强多了!
|
自然语言处理 开发者
通义千问继续开源!阿里云38篇论文被顶会ACL 2024录用
通义千问继续开源!阿里云38篇论文被顶会ACL 2024录用
961 8
|
存储 Kubernetes 监控
Kubernetes(K8s)基础与入门指南
【8月更文挑战第15天】Kubernetes作为云原生时代的基石,正在逐步改变软件的开发、部署和管理方式。通过掌握Kubernetes的基础知识和核心功能,开发者可以更加灵活地构建和管理容器化应用。未来,随着技术的不断发展和完善,Kubernetes将在更多领域发挥重要作用,推动云原生技术的普及和应用。
1851 2
|
移动开发 JavaScript 前端开发
学习vue3使用在线官方开发环境play.vuejs.org进行测试
学习vue3使用在线官方开发环境play.vuejs.org进行测试
369 1
|
JavaScript API 定位技术
使用vue3结合高德实现定位功能
使用vue3结合高德地图实现定位功能
14076 59
使用vue3结合高德实现定位功能