使用光模块Breakout功能减少AI训练中断故障

简介: 本文介绍了使用大成鹏通信光模块Breakout功能可以减少AI训练中断故障的问题。通过Breakout功能,单通道故障不会中断其他通道的数据转发,有效解决了传统光模块因单通道故障导致的训练中断问题。同时,还介绍了如何利用Breakout功能进行更灵活的AI基础网络组网。

使用光模块Breakout功能减少AI训练中断故障

根据Meta Llama 3.1万卡集群公开的论文,Llama 3.1 在为期 54 天的训练期间,经历了共 466 次任务中断,其中8.4%Network原因,包括交换机和网络线缆故障。另据IDC的报告,“根据华为数据中心评估,1000k+GPU的稳定训练时间不超过 2.8天。”,“22%的中断是网络故障导致的。“其中由于光模块故障造成的AI训练中断的比例是更低的。但是,作为光模块来说,是否还有继续优化的空间?下面我们来探讨一下如何使用光模块Breakout功能减少AI训练中断故障。

image.png

1 Meta Llama 3.1万卡集群故障率一览

首先,我们以大成鹏通信用于AI网络互联的400G QSFP112 SR4为例来看一看光模块的内部架构。

image.png

2 400G QSFP112 SR4内部架构

由上图可以清晰的看出,整个光模块分为4个光通道(4*100G)并对应有4个电通道(4*100G,),其中任何一路通道出现故障,光模块将告警信息上报给主机,告诉主机哪个通道有问题,主机会关断整个端口,也就是说其他3路工作正常的通道数据转发也会被中断,如图3所示。于是就产生了由传统光模块因单通道故障导致的训练中断问题。

image.png

3

根据大成鹏通信的经验,传统光模块的年失效率达4‰,其中,单通道故障约占90%。对此,大成鹏通信光模块支持通过Breakout功能,实现单通道故障数据转发不中断,有效解决了传统光模块因单通道故障导致的训练中断问题。简单解释为,把一个400G QSFP112 SR4光模块的4个通道看成4100G光模块,当单个通道故障时,仅所在通道停止工作,其他通道仍可正常进行数据转发,如图4所示。由此,可以大幅减少因单通道故障导致AI训练中断故障。

image.png

4

结合上面我们的讨论,还可以在AI基础网络组网上提出更灵活的组网,对通道进行分组,比如800G QSFP-DD SR8模块,8个通道(8*100G),我们可以通过Breakout功能,分为4*100G+4*100G两组进行组网,也可以2*100G+2*100G+2*100G+2*100G四组进行组网。这也是有源光缆AOC和无源铜缆DAC分支线缆产品能够实现的原理。


相关文章
|
7天前
|
人工智能 开发框架 机器人
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。
1937 13
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
|
26天前
|
人工智能 自然语言处理 搜索推荐
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。
56 4
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
|
2月前
|
人工智能 前端开发 Unix
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
112 29
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
|
11天前
|
人工智能 IDE 程序员
与1.0 相比,通义灵码 2.0 AI 程序员有哪些功能、亮点、优势、场景?
通义灵码2.0相比1.0新增了工程级编码任务、单元测试生成和图片多模态问答等功能,支持多文件代码修改、批量生成单元测试及根据图片内容生成代码建议。亮点包括支持主流IDE、垂直智能体覆盖更多场景、企业级检索增强和灵活对话交互体验。技术优势涵盖多模态上下文感知、快速推理、企业数据个性化及一流代码生成效果。典型应用场景有新功能开发、跨语言编程、单元测试自动生成和错误排查修复。
218 7
|
1月前
|
人工智能 数据处理 C#
AI Dev Gallery:微软开源 Windows AI 模型本地运行工具包和示例库,助理开发者快速集成 AI 功能
微软推出的AI Dev Gallery,为Windows开发者提供开源AI工具包和示例库,支持本地运行AI模型,提升开发效率。
87 13
|
1月前
|
传感器 机器学习/深度学习 人工智能
技术分享:智能电网巡检与传感器数据自动分析——AI助力设备状态实时监控与故障预警
这篇文章介绍了AI在智能电网巡检与传感器数据分析中的应用,通过信息抽取、OCR识别和机器学习等技术,实现设备状态监控和故障预警的自动化。AI系统能够高效处理巡检报告和传感器数据,精准识别设备故障并实时预警,显著提升了电网运营的安全性和可靠性。随着AI技术的发展,其在智能电网管理中的作用将日益重要。
|
2月前
|
编解码 人工智能 监控
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具,能够修复视频缺失部分、去除模糊,并支持四倍超分辨率。该工具优化了处理效率,适合快速处理视频的应用场景。
1951 6
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
|
2月前
|
人工智能 API 数据库
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
607 0
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
|
2月前
|
人工智能 自然语言处理 搜索推荐
Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能
Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。
201 0
Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能
|
3月前
|
机器学习/深度学习 人工智能 语音技术
Fugatto:英伟达推出的多功能AI音频生成模型
Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。
184 1
Fugatto:英伟达推出的多功能AI音频生成模型

热门文章

最新文章