使用光模块Breakout功能减少AI训练中断故障

简介: 本文介绍了使用大成鹏通信光模块Breakout功能可以减少AI训练中断故障的问题。通过Breakout功能,单通道故障不会中断其他通道的数据转发,有效解决了传统光模块因单通道故障导致的训练中断问题。同时,还介绍了如何利用Breakout功能进行更灵活的AI基础网络组网。

使用光模块Breakout功能减少AI训练中断故障

根据Meta Llama 3.1万卡集群公开的论文,Llama 3.1 在为期 54 天的训练期间,经历了共 466 次任务中断,其中8.4%Network原因,包括交换机和网络线缆故障。另据IDC的报告,“根据华为数据中心评估,1000k+GPU的稳定训练时间不超过 2.8天。”,“22%的中断是网络故障导致的。“其中由于光模块故障造成的AI训练中断的比例是更低的。但是,作为光模块来说,是否还有继续优化的空间?下面我们来探讨一下如何使用光模块Breakout功能减少AI训练中断故障。

image.png

1 Meta Llama 3.1万卡集群故障率一览

首先,我们以大成鹏通信用于AI网络互联的400G QSFP112 SR4为例来看一看光模块的内部架构。

image.png

2 400G QSFP112 SR4内部架构

由上图可以清晰的看出,整个光模块分为4个光通道(4*100G)并对应有4个电通道(4*100G,),其中任何一路通道出现故障,光模块将告警信息上报给主机,告诉主机哪个通道有问题,主机会关断整个端口,也就是说其他3路工作正常的通道数据转发也会被中断,如图3所示。于是就产生了由传统光模块因单通道故障导致的训练中断问题。

image.png

3

根据大成鹏通信的经验,传统光模块的年失效率达4‰,其中,单通道故障约占90%。对此,大成鹏通信光模块支持通过Breakout功能,实现单通道故障数据转发不中断,有效解决了传统光模块因单通道故障导致的训练中断问题。简单解释为,把一个400G QSFP112 SR4光模块的4个通道看成4100G光模块,当单个通道故障时,仅所在通道停止工作,其他通道仍可正常进行数据转发,如图4所示。由此,可以大幅减少因单通道故障导致AI训练中断故障。

image.png

4

结合上面我们的讨论,还可以在AI基础网络组网上提出更灵活的组网,对通道进行分组,比如800G QSFP-DD SR8模块,8个通道(8*100G),我们可以通过Breakout功能,分为4*100G+4*100G两组进行组网,也可以2*100G+2*100G+2*100G+2*100G四组进行组网。这也是有源光缆AOC和无源铜缆DAC分支线缆产品能够实现的原理。


相关文章
|
3月前
|
人工智能 开发者
阿里云百炼X支付宝:「AI打赏」功能上线,Agent变现更灵活🎉🎉🎉
阿里云百炼平台联合支付宝,推出业内首个Agent「AI打赏」功能,开发者可为应用一键配置赞赏功能,用户打赏金额将直接转入开发者支付宝账户,助力快速变现。
330 1
|
3月前
|
人工智能 测试技术 API
Apipost vs Apifox:AI能力及功能对比
2025年,AI技术深度融入企业业务系统,成为提升生产力与竞争力的关键。本文对比了API管理工具Apipost与Apifox的AI能力。Apipost在智能识别、测试用例生成、脚本函数生成及文档处理等方面表现突出,显著提升开发效率与质量;而Apifox功能相对局限,依赖手动操作,难以满足高要求的现代开发需求。Apipost凭借全面的AI赋能,正引领API开发迈向智能化新时代。
54 0
|
4月前
|
人工智能 运维 监控
兄弟,你还在翻日志看故障?AI都快替你写日报了!
兄弟,你还在翻日志看故障?AI都快替你写日报了!
209 7
|
4月前
|
机器学习/深度学习 人工智能 运维
运维人别靠运气了,AI才是你预防故障的第二条命
运维人别靠运气了,AI才是你预防故障的第二条命
169 10
|
5月前
|
人工智能 自然语言处理 搜索推荐
JeecgBoot AI 应用开发平台,AIGC 功能介绍
JeecgBoot推出AIGC功能模块,包含AI应用开发平台与知识库问答系统,支持AI流程编排、模型管理、知识库训练及向量库对接。基于LLM大语言模型,提供智能对话、RAG检索增强生成等功能,兼容多种大模型(如DeepSeek、Qwen等)。平台结合低代码与AIGC,适用于复杂业务场景,支持快速原型到生产部署,助力用户打造个性化智能体,如“诗词达人”或“翻译助手”,并可嵌入第三方系统提升交互能力。项目开源,欢迎体验与交流。
181 0
JeecgBoot AI 应用开发平台,AIGC 功能介绍
|
5月前
|
人工智能 缓存 Java
用 AI 搭建秒杀平台后端,一周搞定所有功能(附超详细踩坑记录)
本文分享如何借助AI技术快速搭建电商秒杀平台后端。通过飞算JavaAI,从需求分析到代码生成全流程智能化,大幅提高开发效率。文章详细记录了技术栈选择(Java、Spring Boot、MySQL、Redis)、系统架构设计、缓存机制优化、数据一致性保障及测试调优等环节,解决高并发难题,助开发者高效完成秒杀平台构建并规避常见坑点。
|
6月前
|
人工智能 API 语音技术
HarmonyOS Next~鸿蒙AI功能开发:Core Speech Kit与Core Vision Kit的技术解析与实践
本文深入解析鸿蒙操作系统(HarmonyOS)中的Core Speech Kit与Core Vision Kit,探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互,提供语音识别、合成等功能,支持多场景应用;Core Vision Kit专注视觉处理,涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势,展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。
331 31
|
6月前
|
人工智能 JSON Java
Sring.ai生成图片的功能---OpenAiImageClient
随着大模型的升级迭代,现在越来越多的人都开始接入API接口了,尤其是JAVA的同学们,上一篇文章介绍了,从零搭建一个环境,用于调用openai的key,进行访问AI接口,进行一些对话的功能,本篇文章主要介绍生成图片的接口。希望可以帮助到正在学习spring.ai的同学一些参考。
202 2
Sring.ai生成图片的功能---OpenAiImageClient
|
6月前
|
人工智能 自然语言处理 安全
Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目
Anus 是一个开源 AI 智能体项目,复刻了 Manus 的部分功能,支持自然语言指令执行、多代理协作、多模态输入处理等功能,旨在为开发者提供强大且灵活的工具。
720 1
Anus:公开整活!完全用 Manus 复刻 Manus 功能的开源 AI 智能体项目
|
7月前
|
人工智能 程序员 测试技术
通义灵码 AI 程序员核心功能体验
阿里云通义灵码AI程序员已全面上线,成为全球首个同时支持 VS Code、JetBrains IDEs 开发工具的AI程序员产品。
1093 1
通义灵码 AI 程序员核心功能体验

热门文章

最新文章