阿里云基础网络技术5篇论文入选全球网络顶会NSDI

简介: 近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。

近日,在全球顶级网络系统会议NSDI 2025上,阿里云基础网络技术5篇论文被主会录用,论文研究成果涵盖多个领域,包括面向大模型训练的网络故障诊断、大模型训练网络仿真、容器网络性能问题诊断、基于AI推理的CDN流控算法智能选择,以及GPU解耦型推理场景的性能优化等五个重要领域。

在此次入选的文章中,阿里云主创论文《Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production》总结了近一年多以来阿里云在支持大模型训练过程中的实践与经验。

在研究中,阿里云网络、灵骏、PAI等技术共同打造了端+网+任务协同的系统性智算网络诊断体系,将网络故障诊断耗时降低97%,顺利支持通义千问完成了多次模型版本的训练发布。

传统的云计算诊断系统是针对通用计算场景设计的,在大模型场景下并不完全适用。由于大模型训练存在很多独特的执行特性,如大范围的集合通信等,会导致诸多经典诊断手段误报,无法精准完成问题定位。虽然头部大模型公司有针对大模型训练场景专门设计的故障诊断系统,但相对来说,方案对于提供公共云服务的解决方案来说有所局限。

Aegis与已有诊断系统对比与演进

因此,在论文研究中,Aegis选择了一条增强已有体系+训练过程感知的两阶段演进路线。在增强已有体系阶段(Phase-1),Aegis将大量人工定位问题的经验进行梳理总结,形成了一套在线日志分析+定点隔离诊断的问题定位体系,帮助降低了71%的任务中断问题定位耗时。在训练过程感知阶段(Phase-2),Aegis找到了集合通信库这一桥接计算过程和通信过程的通用组件,并进行针对性的诊断能力增强,实现了基于集合通信信息的全面在线的故障诊断,进一步降低了91%的问题定位耗时。

在诊断训练任务失败这类问题之外,Aegis还进一步覆盖了性能回退场景的问题定位以及交付前问题的前置检查。最终模型训练过程中的性能回退比例以及任务重启次数都得到了大幅降低,全方位地为阿里云上大模型训练任务的稳定运行保驾护航。

此外,本次入选的其他4篇论文也有突出表现:

论文《SimAI: Unifying Architecture Design and Performance Tuning for Large-Scale Large Language Model Training with Scalability and Precision》中,SimAI作为业界首个全栈的高精度大模型集群训练模拟器,通过最大程度还原实际训练框架、集合通信、GPU算子等的执行流程和开销,实现了小于5%端到端仿真误差的高仿真精度,在阿里云智算集群新机型、新架构的评估中发挥了重要作用。

SimAI整体框架

论文《Learning Production-Optimized Congestion Control Selection for Alibaba Cloud CDN》中,阿里云研发了一个基于深度学习的智能CDN拥塞控制选择系统AliCCS,它突破了单一拥塞控制算法难以适应多变网络环境的难题。在阿里云CDN大规模部署后,AliCCS在阿里云CDN大规模部署后,降低视频卡顿率9.31%,降低重传率25.51%以上,显著降低CDN运营成本并改善短视频用户体验。

AliCCS工作流程

论文《GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale Prism》介绍了阿里云GPU解耦型推理场景的全新方案设计,它彻底消除了GPU资源碎片问题。在大促等流量高峰期间,Prism能高效实现从训练集群向推理集群的资源“借调”,节省超过90%的GPU资源。

Prism核心设计

论文《Mitigating Scalability Walls of RDMA-based Container Networks》中,针对容器化RDMA场景在表项卸载中存在的性能问题,ScalaCN提出了一种组合因果测试方法,用于高效建模RNIC架构、有效逼近其性能模型;提供了系统性的异常发现、根因定位与优化能力;实际高卸载压力场景下的网络吞吐提升高达40%。

ScalaCN核心设计

阿里云智能研发副总裁、基础网络负责人蔡德忠表示:“从智算网络集群异常诊断到大模型训练仿真系统,从CDN智能控制到云原生网络创新,阿里云持续将产业级技术难题和学术创新融合,为AI大模型时代下云计算基础设施发展做出贡献。”


NSDI学术会议

NSDI是美国高等计算系统协会 (USENIX协会) 举办的顶级学术会议,与ACM SIGCOMM并列为计算机网络和系统研究领域最高水平的两大会议,被中国计算机学会(CCF)评为A类推荐会议,Core Conference Ranking也给予其A级别评价,代表了最前沿的科研水平和影响力。此次会议共收到666篇投稿,录用83篇论文,录取率不到12.5%,是NSDI历史录取率最低一次。



来源  |  阿里云公众号

目录
相关文章
|
1月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
266 2
|
3月前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
107 10
|
6月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
159 17
|
6月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
123 10
|
6月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
6月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,并提供一些实用的代码示例。通过阅读本文,您将了解到如何保护自己的网络安全,以及如何提高自己的信息安全意识。
143 10
|
6月前
|
监控 安全 网络安全
网络安全与信息安全:漏洞、加密与意识的交织
在数字时代的浪潮中,网络安全与信息安全成为维护数据完整性、保密性和可用性的关键。本文深入探讨了网络安全中的漏洞概念、加密技术的应用以及提升安全意识的重要性。通过实际案例分析,揭示了网络攻击的常见模式和防御策略,强调了教育和技术并重的安全理念。旨在为读者提供一套全面的网络安全知识框架,从而在日益复杂的网络环境中保护个人和组织的资产安全。
|
6月前
|
存储 监控 安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
本文将探讨云计算与网络安全之间的关系,以及它们在云服务、网络安全和信息安全等技术领域中的融合与挑战。我们将分析云计算的优势和风险,以及如何通过网络安全措施来保护数据和应用程序。我们还将讨论如何确保云服务的可用性和可靠性,以及如何处理网络攻击和数据泄露等问题。最后,我们将提供一些关于如何在云计算环境中实现网络安全的建议和最佳实践。
|
6月前
|
安全 算法 网络协议
网络安全与信息安全知识分享
本文深入探讨了网络安全漏洞、加密技术以及安全意识三个方面,旨在帮助读者更好地理解和应对网络安全威胁。通过分析常见的网络安全漏洞类型及其防范措施,详细介绍对称加密和非对称加密的原理和应用,并强调提高个人和企业安全意识的重要性,为构建更安全的网络环境提供指导。
125 2
|
6月前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们日常生活中不可或缺的一部分。本文将深入探讨网络安全漏洞、加密技术和安全意识等方面的问题,并提供一些实用的建议和解决方案。我们将通过分析网络攻击的常见形式,揭示网络安全的脆弱性,并介绍如何利用加密技术来保护数据。此外,我们还将强调提高个人和企业的安全意识的重要性,以应对日益复杂的网络威胁。无论你是普通用户还是IT专业人士,这篇文章都将为你提供有价值的见解和指导。

热门文章

最新文章