MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施

简介: 大模型训练中,MoE架构逐渐成为主流,但也面临资源利用率低、系统稳定性差、通信带宽瓶颈三大挑战。传统AI集群难以满足其需求,而“昇腾超节点”通过自研高速互联协议、软硬件协同调度、全局内存统一编址及系统稳定性提升等创新,实现384张卡协同工作,大幅提升训练效率与推理性能。相比传统方案,昇腾超节点将训练效率提升3倍,推理吞吐提升6倍,助力MoE模型在工业、能源等领域的规模化应用。5月19日的鲲鹏昇腾创享周直播将深度解析相关技术细节。

对AI比较关注的话,大概率会听到下面两个“时髦”的概念:

一个是Scaling Law,通常被翻译为“规模定律”,得出了一个通俗易懂的结论——“模型越大,性能越好。”

另一个是MoE架构,中文名称是混合专家模型,相对应的概念是稠密(Dense)模型。如果说稠密模型一个“通才”,由一个“专家”处理多种不同的任务,MoE则是将任务分门别类,分给多个“专家”进行解决。

Scaling Law和MoE的出镜率越来越高,意味着大模型的参数量将越来越大,同时开始提升“能力密度”。直接相关的就是大模型的训练和推理,正在从粗放烧钱到精细调优,从堆算力转向算力利用率最大化。

站在大模型工程化创新的十字路口,恰逢鲲鹏昇腾开发者大会2025前夕,“昇腾超节点”迅速成为技术圈的热门话题。

由此产生的一个问题是:MoE架构大模型的训练都遇到了哪些挑战,昇腾给出了什么新解法?

01 MoE架构成主流,大模型训练遇到“三座大山”
Mixtral、DeepSeek R1、Llama 4、Qwen3……近一年现象级刷屏的大模型,清一色地采用了MoE架构。

原因离不开MoE的架构创新。

每个专家负责任务的一部分,极大地提升了模型的可扩展性;每个专家都能针对整个问题的特定方面进行微调,进一步提升了模型的专业化和准确性;每次请求只激活部分专家,显著减少了每次推理的计算负荷……

当MoE架构演变为大模型的主流范式,由服务器、存储、网络等设备堆叠而成的传统集群,在大模型训练上遇到了“三座大山”。

一是资源利用率低。

MoE架构对负载均衡非常敏感,路由机制如果分布不均,某些专家会频繁被调用,而其他专家几乎闲置。

传统AI集群部署MoE模型时,每台服务器只部署部分专家,缺乏全局调度能力。由于路由机制无法感知底层资源状态,可能导致部分服务器的使用率大于90%,部分服务器几乎不参与计算。结果就是,GPU的利用率远低于理论峰值,直接拉长了模型的训练周期,提升了能耗与成本。

二是系统稳定性差。

MoE架构依赖动态路由+专家选择,对系统的持续稳定性要求远高于传统Dense模型,让工程的复杂度陡升。

在传统AI集群上训练MoE模型,任何一个节点的故障,都可能导致整个训练任务失败。比如某MoE大模型的训练过程,由于集群规模超过1000张加速卡,平均无故障运行时间不足6小时,每24小时需重新调度两次以上,单次训练需要数天乃至数周,运维人员长期处于高强度监控状态。

三是通信带宽瓶颈。

MoE架构的“小专家”,理论上可以节省计算资源,前提是能灵活高效地选择和调度,对通信带宽提出了极高要求。

在传统AI集群中,GPU之间通过PCle或InfiniBand通信,激活路由涉及大量跨卡、跨节点访问,导致在All-to-All通信模式下,MoE架构的通信压力远大于Dense架构,训练速度甚至比Dense更慢。当GPU资源被通信“拖死”,哪怕是业界主流的高带宽GPU,训练效率也难以线性提升。

以上还只是大模型训练时的常见痛点。

倘若推理阶段依然部署在传统AI集群上,在不支持高频动态路由和异构推理请求的环境下,用户请求要触发不同专家组合,再加上请求跳转至跨节点专家时时延大,有些请求的延迟高达200ms以上。

训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统AI集群,已经不符合大模型的创新趋势。

02 更亲和MoE架构,“昇腾超节点”有何不同?
传统AI集群的本质是做加法,即通过硬件堆叠的方式提升算力,在大模型早期确实奏效,短板也很明显。

被技术圈追捧的昇腾超节点,可以看作是算力集群走向“乘法”式增长的标志,不仅仅是计算,进一步结合了存储、通信等能力,计算性能倍增的同时,实现了时延、吞吐、负载均衡等能力的整体跃迁。

用一句话总结的话,昇腾超节点实现了让384张卡像一台计算机一样工作,更亲和MoE架构。

根源是昇腾的四个针对性创新。

第一个是自研高速互联协议,能够将成百上千个NPU以TB级带宽超高速互联,大幅提升了并行计算的通信效率。

相较于传统集群,实现超低延迟、高带宽通信的昇腾超节点,大模型训练的All-to-All通信性能可提升5倍,send/recv集合通信性能可提升7倍,进而大幅降低了整体通信占比,让计算少等待、不等待。打破了通信上存在的瓶颈,整体训练效率提升了3倍、推理吞吐提升了6倍。

第二个是软硬件协同调度,通过异构计算平台CANN的协同,支持专家调度感知训练负载与NPU负载实时状态。

针对MoE模型训练中专家热点分布造成部分计算节点过载的问题,昇腾“超节点架构”能够依据MoE结构中专家分布以及每层的计算需求,精细地将个模型切分至不同节点,更合理分配资源,提高整体资源利用率,同时可运行多种并行策略并动态调整,针对实时的负载情况精准分配计算资源。

第三个是全局内存统一编址,所有的节点共享一套全局内存体系,数据无需频繁搬移,以此来提高训练的效率。

DeepSeek R1已经有288个专家,不排除大模型专家数量越来越多的可能。支持全局内存统一编址的昇腾超节点,具备更高效的内存语义通信能力,通过更低时延指令级内存语义通信,可满足大模型训练/推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。

第四个是系统稳定性的提升,保证训练不中断、推理更可靠,大幅降低了MoE大模型的部署和运维门槛。

比如MoE训练过程一旦某专家节点异常,可能导致全局失败的问题。昇腾超节点采用了7平面的链路设计、链路故障秒级切换、算子级重传等可靠性能力,确保大模型训练不中断,平均无故障运行时长从几小时提升到几天。同时支持更敏捷的断点续训,故障恢复时长从小时级降低至15分钟。

可以佐证的是,基于超节点设计的AI集群Atlas 900 A3 SuperCluster,在测试中突破了Scale Up物理节点计算瓶颈,平均无故障运行时长达到数天,训练效率提升了2.7倍;由于所有专家集中部署在一个超节点,在推理过程中实现了15ms超低延迟和高吞吐能力,对推荐系统、搜索排序、智能客服等对延迟极敏感的应用场景更加友好。

03 算力创新蝶变:从“硬件堆叠”到“系统级协同”
除了性能上的提升,MoE架构创新的另一个深远影响,在于降低了推理阶段的综合成本。

过去,大模型的强大性能往往伴随着极高的算力消耗,导致部署门槛极高。MoE通过“按需激活”的专家机制,在保证精度的同时大幅节省了计算资源,为企业级、行业级AI应用的落地打通了路径。

昇腾在算力底层架构上的实干式创新,向外界揭示了一个新的趋势:当大模型走出实验室,走向生产一线,走向规模化应用,为AI提供源动力的基础设施,不再是“硬件堆叠”,而是计算、存储、网络的“系统级协同”。

不单单是亲和MoE模型,搬走了大模型训练的“三座大山”,还预示着AI基础设施的“工程可控性”和“业务适配性”,更好地支持大模型在工业、能源、交通、金融等领域的规模化部署。

如果你也对昇腾超节点感兴趣,想要了解更多技术细节和创新方案,推荐关注5月19日的鲲鹏昇腾创享周直播活动,技术直播的第一场就将深度讲解基于昇腾的超节点架构,如何助力MoE模型的训练和推理,带来15ms超低时延和高吞吐量。

相关文章
|
19天前
|
云安全 人工智能 安全
大模型+安全,阿里云发布AI云盾系列产品!
阿里云正式发布AI云盾(Cloud Shield for AI)系列安全产品,包括AI安全护栏、升级云安全中心、WAAP和云防火墙。该系列提供模型输入输出安全、AI-BOM、AI-SPM等能力,构建三层模型安全防御体系,涵盖AI基础设施、大模型及应用安全。其中,AI安全护栏保障生成式AI合规性,实时检测威胁并维护模型健康,支持多模态内容交叉检测的All In One API调用模式。此外,AI-BOM与AI-SPM助力客户持续监控AI资产及安全状态。
133 3
大模型+安全,阿里云发布AI云盾系列产品!
|
18天前
|
传感器 人工智能 IDE
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
716 8
|
14天前
|
人工智能 Cloud Native 数据管理
邀您参加 KubeCon China 2025 分论坛 | 阿里云 AI 基础设施技术沙龙
KubeCon + CloudNativeCon China 2025 将于6月10-11日在香港合和酒店举办,由CNCF与Linux基金会联合主办。阿里云开发者将在大会上分享多个技术议题,涵盖AI模型分发、Argo工作流、Fluid数据管理等领域。大会前还有阿里云AI基础设施技术沙龙,聚焦AI基础设施及云原生技术实战经验。欢迎扫码报名参与!
232 64
|
13天前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
|
11天前
|
人工智能 IDE 定位技术
AI IDE正式上线!通义灵码开箱即用
通义灵码AI IDE现已正式上线,用户可免费下载使用。作为AI原生开发环境工具,它深度适配千问3大模型,集成通义灵码插件能力,支持编程智能体、行间建议预测和行间会话等功能。其核心亮点包括:支持最强开源模型千问3,具备MCP工具调用能力;开箱即用的智能编码助手;自带编程智能体模式,端到端完成编码任务;长期记忆、NES行间预测及Inline Chat功能,大幅提升编程效率。目前,通义灵码插件下载量超1500万,生成代码超30亿行,广泛应用于企业开发场景。
AI IDE正式上线!通义灵码开箱即用
|
17天前
|
存储 人工智能 供应链
AI Agent智能体:底层逻辑、原理与大模型关系深度解析·优雅草卓伊凡
AI Agent智能体:底层逻辑、原理与大模型关系深度解析·优雅草卓伊凡
94 1
AI Agent智能体:底层逻辑、原理与大模型关系深度解析·优雅草卓伊凡
|
12天前
|
人工智能 运维 Kubernetes
倒计时 3 天!邀您共赴维多利亚港精彩纷呈的 AI 基础设施技术盛宴!
6 月 9 日「KubeCon China 2025 分论坛|阿里云 AI 基础设施技术沙龙」火热报名中!席位有限,先到先得。热切期待您的莅临!
|
18天前
|
人工智能 IDE 定位技术
AI IDE正式上线!通义灵码开箱即用
作为AI原生的开发环境工具,通义灵码AI IDE深度适配了最新的千问3大模型,并全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能。
409 13
|
12天前
|
人工智能 自然语言处理 测试技术
🧠 用 AI 提升你的编程效率 —— 在 PyCharm 中体验通义灵码
通义灵码是一款基于大模型的智能编程辅助工具,现已上线PyCharm插件V2.5+版本。它能根据自然语言描述、注释或上下文生成高质量代码,支持多语言(Python、Java等),提供代码补全、优化建议、单元测试生成及异常排查等功能。集成魔搭MCP市场3000+服务,具备编程智能体模式与长期记忆能力,助开发者提升效率。适用初学者、资深开发者及团队协作场景。小红书、B站、抖音、微博均有相关资源分享。 小红书: http://xhslink.com/a/SvabuxSObf3db bilibili:https://b23.tv/1HJAdIx 抖音: https://v.douyin.com/1DAG
184 3
|
21天前
|
人工智能 小程序 计算机视觉
AI不只有大模型,小模型也蕴含着大生产力
近年来,AI大模型蓬勃发展,从ChatGPT掀起全球热潮,到国内“百模大战”爆发,再到DeepSeek打破算力壁垒,AI技术不断刷新认知。然而,在大模型备受关注的同时,许多小而精的细分模型却被忽视。这些轻量级模型无需依赖强大算力,可运行于手机、手持设备等边缘终端,广泛应用于物体识别、条码扫描、人体骨骼检测等领域。例如,通过人体识别模型衍生出的运动与姿态识别能力,已在AI体育、康复训练、线上赛事等场景中展现出巨大潜力,大幅提升了相关领域的效率与应用范围。本文将带您深入了解这些高效的小模型及其实际价值。

热门文章

最新文章

下一篇
oss创建bucket