以LLaMa 65B模型训练实例来计算AI/HPC算力光模块数量

简介: 本文介绍了如何根据LLaMa 65B模型训练需求计算所需的AI/HPC光模块数量。在案例中,使用2048个A100 GPU,单GPU算力为156 TFLOPS。模型算力需求为546*10^21 FLOPS,预计训练时间为20天。采用两层Fat-Tree网络架构,需1024个400G网卡,48台交换机,若全用400G光模块则需4096个,交换机间2048个,网卡间1024个。大成鹏通信提供200G至800G的解决方案,并提供咨询与支持服务。

网络上的文章基本上是根据设备商规划好的网络架构来计算AI/HPC算力光模块(以下简称光模块)的数量。今天,大成鹏通信就以LLaMa 65B模型训练实例来阐释AI训练模型需要的网络架构对应的光模块数量如何计算。本案例的训练模型为LLaMa 65B,使用的GPU为A100,数量2048个。

算力计算:
①单个GPU的算力供给计算公式:
单GPU算力供给(A) =GPU核数 单核主频 单周期浮点计算能力。(该参数一般由GPU厂商直接给出)
②单个模型的算力需求计算公式为:
单模型算力需求(C)=6 模型的参数量 训练数据的 token 数。
③估算训练时间:
T=C/(X*A),X为GPU数量,单位为秒。
image.png

图1 A100 GPU算力


结合我们的案例:
①单张GPU A100的算力供给:
BF16浮点数格式(训练精度)下,算力为312TFLOPS。也就是单GPU算力供给(A) =312 TFLOPS=312 10^12FLOPS。
**
实际应用中要考虑训练效率:A100的实际利用率50%左右,并以此为基础推算单个A100的算力A=312 10^12FLOPS 50%=156 10^12FLOPS。**
②LLaMa 65B模型算力需求:
C=6 65B1.4T=6 6510^9 1.410^12=546*10^21

image.png

图2 LLaMa 65B模型参数


③估算训练时间:
GPU数量为2048个,T=C/(2048A) =546 10^21/(2048156 10^12)=1708984.375秒≈20天。
(可以根据此公式,预设训练时间,反推出GPU数量)

网络架构选择:
IB组网通常采用无阻塞网络设计,其关键是采用 Fat-Tree(胖树)网络架构。交换机下联和上联带宽采用 1:1 无收敛设计,即如果下联有32个400Gbps 的端口,那么上联也有 32个 400Gbps 的端口。
两层胖树和三层胖树最重要的区别是可以容纳的 GPU 卡的规模不同。在下图中 N 代表 GPU 卡的规模,P 代表单台交换机的端口数量。比如对于端口数为 64 的交换机,两层胖树架构可容纳的 GPU 卡的数量是 2048卡,三层胖树架构可容纳的 GPU 卡的数量是 65,535卡。

image.png

图3 GPU和交换机端口计算公式


目前,结合我们第一部分算力的计算,使用LLaMa 65B模型,运用A100 GPU进行计算,训练时间20天,GPU数量为2048个,那么选用两层Fat-Tree(胖树)网络结构,即可满足需求。
image.png

图4 二层胖树结构


网卡、交换机、光模块数量计算:
①网卡数量计算
单个A100 GPU支持PCI Express 4.0,最大传输带宽32GB/s=256Gb/s。如果单个服务器有2张GPU ,所以可以选择1张400G IB网卡(CX-7)进行传输。
image.png

图5 A100 PCIE接口规格


image.png

图6 IB网卡规格


因此GPU卡数量:400G网卡数量=2:1。该案例中GPU数量2048个,那么网卡数量1024个。

②交换机数量计算
以网卡数量来计算交换机数量。使用NVDIA MQM9700系列交换机,每台交换机共计64个400G端口。网络收敛比1:1。
交换机数量:用1024÷32=32,计算出Leaf交换机数量;32÷2=16,计算出Spine交换机数量,总计48台。

image.png

图7 二层胖树结构网络互联


③光模块数量计算
如果全部使用400G光模块互联:48 64+1024=4096个。
如果交换机互联用的400G光模块:32x32+64
16=2048个;交换机和网卡互联使用400G AOC:1024条。

大成鹏通信目前正在研发适用于AI算力计算的800G产品,届时将形成200G~800G AI/HPC算力光模块解决方案,完美兼容Infiniband设备,替代原装光模块、AOC、DAC!
如果您有AI/HPC算力光模块配置、使用、维护等方面的问题,可以联系我们,网址:www.calightble.com,邮箱地址:tech@calightble.com,大成鹏通信将竭诚为您解答!

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1天前
|
机器学习/深度学习 人工智能 监控
探索自动化测试的未来:AI与机器学习的融合之路
【6月更文挑战第16天】随着技术的快速发展,软件测试领域正经历着前所未有的变革。自动化测试,作为提高软件质量与效率的关键手段,正在逐步融入人工智能(AI)和机器学习(ML)的先进技术。本文将探讨AI与ML如何赋能自动化测试,提升测试用例的智能生成、优化测试流程、预测潜在缺陷,并分析面临的挑战与未来的发展趋势。
13 3
|
3天前
|
机器学习/深度学习 人工智能 搜索推荐
【机器学习】机器学习引领AI:重塑人类社会的新纪元
【机器学习】机器学习引领AI:重塑人类社会的新纪元
13 1
|
3天前
|
机器学习/深度学习 人工智能 算法
【机器学习】机器学习与AI大数据的融合:开启智能新时代
【机器学习】机器学习与AI大数据的融合:开启智能新时代
9 1
|
5天前
|
机器学习/深度学习 人工智能 PyTorch
深度学习长文|使用 JAX 进行 AI 模型训练
深度学习长文|使用 JAX 进行 AI 模型训练
14 2
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与机器学习在IT管理中的应用
【6月更文挑战第11天】随着技术的不断进步,智能化运维已成为提升IT系统效率和稳定性的关键。本文深入探讨了人工智能(AI)和机器学习如何革新传统的运维模式,通过实际案例分析,揭示这些先进技术如何帮助企业实现自动化监控、故障预测、性能优化以及安全防护,从而确保业务的连续性和可靠性。
|
7天前
|
机器学习/深度学习 人工智能 IDE
人工智能平台PAI操作报错合集之交互式建模(DSW)环境中,numpy模块如何正确安装
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
11天前
|
人工智能 算法
AIGC创作活动 | 智"绘"AI,使用PAI创造风格百变绘画助手
使用阿里云人工智能平台PAIx Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理,实现文本驱动的图像编辑功能单卡即可完成AIGC图片风格变化、背景变化和主体变化等功能。让我们一同开启这场旅程,为您的图像编辑添上无限可能性的翅膀吧。
|
18天前
|
人工智能 对象存储 异构计算
AI模型推理服务在Knative中最佳配置实践
Knative和AI结合提供了快速部署、高弹性和低成本的技术优势,对于一些需要频繁变动计算资源的AI应用,如模型推理等尤其明显。那么在Knative上部署AI模型推理时可以遵循这些最佳实践,以提升AI推理服务能力和GPU资源利用率。
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的无限可能:从机器学习到深度学习
【5月更文挑战第31天】本文旨在深入探讨人工智能(AI)的核心技术,包括机器学习和深度学习。我们将通过实例和案例研究,揭示这些技术如何改变我们的生活和工作方式。此外,我们还将讨论AI的未来发展趋势,以及它可能带来的挑战和机遇。
|
20天前
|
机器学习/深度学习 人工智能 分布式计算
Agent AI智能体:如何借助机器学习引领科技新潮流
Agent AI智能体:如何借助机器学习引领科技新潮流
43 0

热门文章

最新文章