阿里云基础网络技术5篇论文入选全球网络顶会NSDI

简介: 阿里云在NSDI 2025会议上发表5篇主会论文,涵盖大模型训练网络故障诊断、仿真、性能优化及CDN流控算法等领域。其中,《Evolution of Aegis》提出两阶段演进路线,显著降低故障诊断时间;《SimAI》实现高精度大模型训练模拟;其他论文分别在CDN拥塞控制、GPU解耦推理和容器网络性能优化上取得突破。这些成果为AI大模型时代的云计算基础设施发展提供了重要支持。NSDI是计算机网络与系统研究领域的顶级会议,本次录取率仅12.5%。

近日,在全球顶级网络系统会议 NSDI 2025 上,阿里云基础网络技术 5 篇论文被主会录用,论文研究成果涵盖多个领域,包括面向大模型训练的网络故障诊断、大模型训练网络仿真、容器网络性能问题诊断、基于 AI 推理的 CDN 流控算法智能选择,以及 GPU 解耦型推理场景的性能优化等五个重要领域。

在此次入选的文章中,阿里云主创论文《 Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production 》总结了近一年多以来阿里云在支持大模型训练过程中的实践与经验。


在研究中,阿里云网络、灵骏、PAI 等技术共同打造了端 + 网 + 任务协同的系统性智算网络诊断体系,将网络故障诊断耗时降低 97%,顺利支持通义千问完成了多次模型版本的训练发布。


传统的云计算诊断系统是针对通用计算场景设计的,在大模型场景下并不完全适用。由于大模型训练存在很多独特的执行特性,如大范围的集合通信等,会导致诸多经典诊断手段误报,无法精准完成问题定位。虽然头部大模型公司有针对大模型训练场景专门设计的故障诊断系统,但相对来说,方案对于提供公共云服务的解决方案来说有所局限。

Aegis与已有诊断系统对比与演进

因此,在论文研究中,Aegis 选择了一条增强已有体系+训练过程感知的两阶段演进路线。在增强已有体系阶段( Phase-1 ),Aegis 将大量人工定位问题的经验进行梳理总结,形成了一套在线日志分析 + 定点隔离诊断的问题定位体系,帮助降低了 71% 的任务中断问题定位耗时。在训练过程感知阶段( Phase-2 ),Aegis 找到了集合通信库这一桥接计算过程和通信过程的通用组件,并进行针对性的诊断能力增强,实现了基于集合通信信息的全面在线的故障诊断,进一步降低了 91% 的问题定位耗时。


在诊断训练任务失败这类问题之外,Aegis 还进一步覆盖了性能回退场景的问题定位以及交付前问题的前置检查。最终模型训练过程中的性能回退比例以及任务重启次数都得到了大幅降低,全方位地为阿里云上大模型训练任务的稳定运行保驾护航。


此外,本次入选的其他 4 篇论文也有突出表现:

论文《 SimAI: Unifying Architecture Design and Performance Tuning for Large-Scale Large Language Model Training with Scalability and Precision 》中,SimAI 作为业界首个全栈的高精度大模型集群训练模拟器,通过最大程度还原实际训练框架、集合通信、GPU 算子等的执行流程和开销,实现了小于 5% 端到端仿真误差的高仿真精度,在阿里云智算集群新机型、新架构的评估中发挥了重要作用。

SimAI整体框架

论文《 Learning Production-Optimized Congestion Control Selection for Alibaba Cloud CDN 》中,阿里云研发了一个基于深度学习的智能 CDN 拥塞控制选择系统 AliCCS,它突破了单一拥塞控制算法难以适应多变网络环境的难题。在阿里云 CDN 大规模部署后,AliCCS 在阿里云 CDN 大规模部署后,降低视频卡顿率 9.31%,降低重传率25.51%以上,显著降低 CDN 运营成本并改善短视频用户体验。

AliCCS工作流程

论文《 GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale Prism 》介绍了阿里云 GPU 解耦型推理场景的全新方案设计,它彻底消除了 GPU 资源碎片问题。在大促等流量高峰期间,Prism 能高效实现从训练集群向推理集群的资源“借调”,节省超过 90% 的 GPU 资源。

Prism核心设计

论文《 Mitigating Scalability Walls of RDMA-based Container Networks 》中,针对容器化 RDMA 场景在表项卸载中存在的性能问题,ScalaCN 提出了一种组合因果测试方法,用于高效建模 RNIC 架构、有效逼近其性能模型;提供了系统性的异常发现、根因定位与优化能力;实际高卸载压力场景下的网络吞吐提升高达 40%。

ScalaCN核心设计

阿里云智能研发副总裁、基础网络负责人蔡德忠表示:“从智算网络集群异常诊断到大模型训练仿真系统,从 CDN 智能控制到云原生网络创新,阿里云持续将产业级技术难题和学术创新融合,为 AI 大模型时代下云计算基础设施发展做出贡献。”

NSDI 学术会议

NSDI 是美国高等计算系统协会 ( USENIX 协会) 举办的顶级学术会议,与 ACM SIGCOMM 并列为计算机网络和系统研究领域最高水平的两大会议,被中国计算机学会(CCF)评为 A 类推荐会议,Core Conference Ranking 也给予其A级别评价,代表了最前沿的科研水平和影响力。此次会议共收到 666 篇投稿,录用 83 篇论文,录取率不到12.5%,是 NSDI 历史录取率最低一次。

相关文章
|
1月前
|
监控 Kubernetes Go
日志采集效能跃迁:iLogtail 到 LoongCollector 的全面升级
LoongCollector 在日志场景中实现了全面的重磅升级,从功能、性能、稳定性等各个方面均进行了深度优化和提升,本文我们将对 LoongCollector 的升级进行详细介绍。
291 86
|
4月前
2024阿里云技术年报 基础设施篇
2024阿里云技术年报 基础设施篇
127 11
|
1月前
|
消息中间件 运维 监控
加一个JVM参数,让系统可用率从95%提高到99.995%
本文针对一个高并发(10W+ QPS)、低延迟(毫秒级返回)的系统因内存索引切换导致的不稳定问题,深入分析并优化了JVM参数配置。通过定位问题根源为GC压力大,尝试了多种优化手段:调整MaxTenuringThreshold、InitialTenuringThreshold、AlwaysTenure等参数让索引尽早晋升到老年代;探索PretenureSizeThreshold和G1HeapRegionSize实现索引直接分配到老年代;加速索引复制过程以及升级至JDK11使用ZGC。
377 82
加一个JVM参数,让系统可用率从95%提高到99.995%
|
1月前
|
数据采集 监控 Go
快来认领你的开源任务!开源之夏 - 可观测项目发布!
开源之夏是由中科院软件所发起的暑期开源活动,旨在鼓励学生参与开源软件开发,培养优秀开发者,促进开源社区发展。
251 39
|
1月前
|
人工智能 文字识别 安全
亚太唯一|阿里云实人认证获权威机构认可
构筑Deepfake下金融安全新防线
1514 72
|
1月前
|
人工智能 安全 API
Higress MCP Server 安全再升级:API 认证为 AI 连接保驾护航
Higress MCP Server 新增了 API 认证功能,为 AI 连接提供安全保障。主要更新包括:1) 客户端到 MCP Server 的认证,支持 Key Auth、JWT Auth 和 OAuth2;2) MCP Server 到后端 API 的认证,增强第二阶段的安全性。新增功能如可重用认证方案、工具特定后端认证、透明凭证透传及灵活凭证管理,确保安全集成更多后端服务。通过 openapi-to-mcp 工具简化配置,减少手动工作量。企业版提供更高可用性保障,详情参见文档链接。
371 42
|
30天前
|
存储 SQL 大数据
从 o11y 2.0 说起,大数据 Pipeline 的「多快好省」之道
SLS 是阿里云可观测家族的核心产品之一,提供全托管的可观测数据服务。本文以 o11y 2.0 为引子,整理了可观测数据 Pipeline 的演进和一些思考。
226 34
|
1月前
|
开发框架 人工智能 Java
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
255 39
|
30天前
|
人工智能 自然语言处理 搜索推荐
AI 零成本搭建个人网站,小白 3 步搞定!通义灵码智能体+MCP 新玩法
通过AI技术,即使不编写代码也能高效开发项目。从生成诗朗诵网页到3D游戏创建,这些令人惊叹的操作如今触手可及。经过摸索,我利用AI成功上线了个人站点:https://koi0101-max.github.io/web。无需一行代码,借助强大的工具即可实现创意,让开发变得简单快捷!
985 68
|
1月前
|
存储 机器学习/深度学习 人工智能
使用 LangChain + Higress + Elasticsearch 构建 RAG 应用
本文介绍了如何利用LangChain、Higress和Elasticsearch快速构建RAG(检索增强生成)应用,实现企业知识的智能检索与问答。首先通过LangChain解析Markdown文档并写入Elasticsearch,接着部署Higress AI网关并配置ai-search插件以整合私有知识库与在线搜索功能。最后,通过实际案例展示了RAG查询流程及结果更新机制,确保内容准确性和时效性。文章还提供了相关参考资料以便进一步学习。
349 38