阿里云基础网络技术5篇论文入选全球网络顶会NSDI

简介: 近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。

近日,在全球顶级网络系统会议NSDI 2025上,阿里云基础网络技术5篇论文被主会录用,论文研究成果涵盖多个领域,包括面向大模型训练的网络故障诊断、大模型训练网络仿真、容器网络性能问题诊断、基于AI推理的CDN流控算法智能选择,以及GPU解耦型推理场景的性能优化等五个重要领域。

在此次入选的文章中,阿里云主创论文《Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production》总结了近一年多以来阿里云在支持大模型训练过程中的实践与经验。

在研究中,阿里云网络、灵骏、PAI等技术共同打造了端+网+任务协同的系统性智算网络诊断体系,将网络故障诊断耗时降低97%,顺利支持通义千问完成了多次模型版本的训练发布。

传统的云计算诊断系统是针对通用计算场景设计的,在大模型场景下并不完全适用。由于大模型训练存在很多独特的执行特性,如大范围的集合通信等,会导致诸多经典诊断手段误报,无法精准完成问题定位。虽然头部大模型公司有针对大模型训练场景专门设计的故障诊断系统,但相对来说,方案对于提供公共云服务的解决方案来说有所局限。

Aegis与已有诊断系统对比与演进

因此,在论文研究中,Aegis选择了一条增强已有体系+训练过程感知的两阶段演进路线。在增强已有体系阶段(Phase-1),Aegis将大量人工定位问题的经验进行梳理总结,形成了一套在线日志分析+定点隔离诊断的问题定位体系,帮助降低了71%的任务中断问题定位耗时。在训练过程感知阶段(Phase-2),Aegis找到了集合通信库这一桥接计算过程和通信过程的通用组件,并进行针对性的诊断能力增强,实现了基于集合通信信息的全面在线的故障诊断,进一步降低了91%的问题定位耗时。

在诊断训练任务失败这类问题之外,Aegis还进一步覆盖了性能回退场景的问题定位以及交付前问题的前置检查。最终模型训练过程中的性能回退比例以及任务重启次数都得到了大幅降低,全方位地为阿里云上大模型训练任务的稳定运行保驾护航。

此外,本次入选的其他4篇论文也有突出表现:

论文《SimAI: Unifying Architecture Design and Performance Tuning for Large-Scale Large Language Model Training with Scalability and Precision》中,SimAI作为业界首个全栈的高精度大模型集群训练模拟器,通过最大程度还原实际训练框架、集合通信、GPU算子等的执行流程和开销,实现了小于5%端到端仿真误差的高仿真精度,在阿里云智算集群新机型、新架构的评估中发挥了重要作用。

SimAI整体框架

论文《Learning Production-Optimized Congestion Control Selection for Alibaba Cloud CDN》中,阿里云研发了一个基于深度学习的智能CDN拥塞控制选择系统AliCCS,它突破了单一拥塞控制算法难以适应多变网络环境的难题。在阿里云CDN大规模部署后,AliCCS在阿里云CDN大规模部署后,降低视频卡顿率9.31%,降低重传率25.51%以上,显著降低CDN运营成本并改善短视频用户体验。

AliCCS工作流程

论文《GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale Prism》介绍了阿里云GPU解耦型推理场景的全新方案设计,它彻底消除了GPU资源碎片问题。在大促等流量高峰期间,Prism能高效实现从训练集群向推理集群的资源“借调”,节省超过90%的GPU资源。

Prism核心设计

论文《Mitigating Scalability Walls of RDMA-based Container Networks》中,针对容器化RDMA场景在表项卸载中存在的性能问题,ScalaCN提出了一种组合因果测试方法,用于高效建模RNIC架构、有效逼近其性能模型;提供了系统性的异常发现、根因定位与优化能力;实际高卸载压力场景下的网络吞吐提升高达40%。

ScalaCN核心设计

阿里云智能研发副总裁、基础网络负责人蔡德忠表示:“从智算网络集群异常诊断到大模型训练仿真系统,从CDN智能控制到云原生网络创新,阿里云持续将产业级技术难题和学术创新融合,为AI大模型时代下云计算基础设施发展做出贡献。”


NSDI学术会议

NSDI是美国高等计算系统协会 (USENIX协会) 举办的顶级学术会议,与ACM SIGCOMM并列为计算机网络和系统研究领域最高水平的两大会议,被中国计算机学会(CCF)评为A类推荐会议,Core Conference Ranking也给予其A级别评价,代表了最前沿的科研水平和影响力。此次会议共收到666篇投稿,录用83篇论文,录取率不到12.5%,是NSDI历史录取率最低一次。



来源  |  阿里云公众号

目录
相关文章
|
5月前
|
弹性计算 安全 应用服务中间件
阿里云渠道商:怎么配置阿里云网络ACL?
阿里云网络ACL是子网级无状态防火墙,支持精准流量控制、规则热生效且免费使用。本文详解5步配置流程,助您实现Web与数据库层的安全隔离,提升云上网络安全。
|
5月前
|
人工智能 安全 架构师
2025云栖大会 | 阿里云网络技术Session主题资料和视频回放归档
2025年9月24日-26日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化带来技术、产品和服务升级,以及全新的云网络产品生态合作计划发布。
732 4
|
5月前
|
弹性计算 网络安全 数据中心
阿里云创建专有网络VPC的【IPv4网段】如何选择?有什么区别?
阿里云VPC创建时需选IPv4网段,默认提供10.0.0.0/16、172.16.0.0/16、192.168.0.0/16,三者无功能差异。若仅单VPC且不连本地数据中心,可任选其一,确保不冲突即可。多VPC或混合云场景需规划避免IP重叠。不支持100.64.0.0/10等特殊网段。建议结合IPAM进行地址管理。
|
SQL 监控 安全
网络安全与信息安全:漏洞、加密与安全意识
随着互联网的迅猛发展,网络安全和信息安全问题日益受到关注。本文深入探讨了网络安全漏洞、加密技术以及提高个人和组织的安全意识的重要性。通过分析常见的网络攻击手段如缓冲区溢出、SQL注入等,揭示了计算机系统中存在的缺陷及其潜在威胁。同时,详细介绍了对称加密和非对称加密算法的原理及应用场景,强调了数字签名和数字证书在验证信息完整性中的关键作用。此外,还讨论了培养良好上网习惯、定期备份数据等提升安全意识的方法,旨在帮助读者更好地理解和应对复杂的网络安全挑战。
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
376 17
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
292 10
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,并提供一些实用的代码示例。通过阅读本文,您将了解到如何保护自己的网络安全,以及如何提高自己的信息安全意识。
284 10
|
监控 安全 网络安全
网络安全与信息安全:漏洞、加密与意识的交织
在数字时代的浪潮中,网络安全与信息安全成为维护数据完整性、保密性和可用性的关键。本文深入探讨了网络安全中的漏洞概念、加密技术的应用以及提升安全意识的重要性。通过实际案例分析,揭示了网络攻击的常见模式和防御策略,强调了教育和技术并重的安全理念。旨在为读者提供一套全面的网络安全知识框架,从而在日益复杂的网络环境中保护个人和组织的资产安全。

热门文章

最新文章