以LLaMa 65B模型训练实例来计算AI/HPC算力光模块数量

简介: 本文介绍了如何根据LLaMa 65B模型训练需求计算所需的AI/HPC光模块数量。在案例中,使用2048个A100 GPU,单GPU算力为156 TFLOPS。模型算力需求为546*10^21 FLOPS,预计训练时间为20天。采用两层Fat-Tree网络架构,需1024个400G网卡,48台交换机,若全用400G光模块则需4096个,交换机间2048个,网卡间1024个。大成鹏通信提供200G至800G的解决方案,并提供咨询与支持服务。

网络上的文章基本上是根据设备商规划好的网络架构来计算AI/HPC算力光模块(以下简称光模块)的数量。今天,大成鹏通信就以LLaMa 65B模型训练实例来阐释AI训练模型需要的网络架构对应的光模块数量如何计算。本案例的训练模型为LLaMa 65B,使用的GPU为A100,数量2048个。

算力计算:
①单个GPU的算力供给计算公式:
单GPU算力供给(A) =GPU核数 单核主频 单周期浮点计算能力。(该参数一般由GPU厂商直接给出)
②单个模型的算力需求计算公式为:
单模型算力需求(C)=6 模型的参数量 训练数据的 token 数。
③估算训练时间:
T=C/(X*A),X为GPU数量,单位为秒。
image.png

图1 A100 GPU算力


结合我们的案例:
①单张GPU A100的算力供给:
BF16浮点数格式(训练精度)下,算力为312TFLOPS。也就是单GPU算力供给(A) =312 TFLOPS=312 10^12FLOPS。
**
实际应用中要考虑训练效率:A100的实际利用率50%左右,并以此为基础推算单个A100的算力A=312 10^12FLOPS 50%=156 10^12FLOPS。**
②LLaMa 65B模型算力需求:
C=6 65B1.4T=6 6510^9 1.410^12=546*10^21

image.png

图2 LLaMa 65B模型参数


③估算训练时间:
GPU数量为2048个,T=C/(2048A) =546 10^21/(2048156 10^12)=1708984.375秒≈20天。
(可以根据此公式,预设训练时间,反推出GPU数量)

网络架构选择:
IB组网通常采用无阻塞网络设计,其关键是采用 Fat-Tree(胖树)网络架构。交换机下联和上联带宽采用 1:1 无收敛设计,即如果下联有32个400Gbps 的端口,那么上联也有 32个 400Gbps 的端口。
两层胖树和三层胖树最重要的区别是可以容纳的 GPU 卡的规模不同。在下图中 N 代表 GPU 卡的规模,P 代表单台交换机的端口数量。比如对于端口数为 64 的交换机,两层胖树架构可容纳的 GPU 卡的数量是 2048卡,三层胖树架构可容纳的 GPU 卡的数量是 65,535卡。

image.png

图3 GPU和交换机端口计算公式


目前,结合我们第一部分算力的计算,使用LLaMa 65B模型,运用A100 GPU进行计算,训练时间20天,GPU数量为2048个,那么选用两层Fat-Tree(胖树)网络结构,即可满足需求。
image.png

图4 二层胖树结构


网卡、交换机、光模块数量计算:
①网卡数量计算
单个A100 GPU支持PCI Express 4.0,最大传输带宽32GB/s=256Gb/s。如果单个服务器有2张GPU ,所以可以选择1张400G IB网卡(CX-7)进行传输。
image.png

图5 A100 PCIE接口规格


image.png

图6 IB网卡规格


因此GPU卡数量:400G网卡数量=2:1。该案例中GPU数量2048个,那么网卡数量1024个。

②交换机数量计算
以网卡数量来计算交换机数量。使用NVDIA MQM9700系列交换机,每台交换机共计64个400G端口。网络收敛比1:1。
交换机数量:用1024÷32=32,计算出Leaf交换机数量;32÷2=16,计算出Spine交换机数量,总计48台。

image.png

图7 二层胖树结构网络互联


③光模块数量计算
如果全部使用400G光模块互联:48 64+1024=4096个。
如果交换机互联用的400G光模块:32x32+64
16=2048个;交换机和网卡互联使用400G AOC:1024条。

大成鹏通信目前正在研发适用于AI算力计算的800G产品,届时将形成200G~800G AI/HPC算力光模块解决方案,完美兼容Infiniband设备,替代原装光模块、AOC、DAC!
如果您有AI/HPC算力光模块配置、使用、维护等方面的问题,可以联系我们,网址:www.calightble.com,邮箱地址:tech@calightble.com,大成鹏通信将竭诚为您解答!

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
探索自动化测试的新篇章:AI与机器学习的融合
【7月更文挑战第31天】随着技术的进步,自动化测试领域正迎来一场革命。AI和机器学习的结合不仅为测试流程带来了效率上的飞跃,还极大地提升了测试的准确性和智能性。本文将深入探讨AI和机器学习如何重新定义软件测试的未来,包括它们在提高测试用例生成的智能化、优化测试执行过程、以及增强缺陷预测和分类能力方面的应用。通过分析当前的挑战与机遇,文章旨在为读者揭示这一趋势背后的潜力及其对传统测试实践的影响。
|
10天前
|
机器学习/深度学习 人工智能 算法
AI基础科普:机器学习入门与实践
本文全面介绍了机器学习及其在信用评分预测中的应用。首先概览了机器学习作为人工智能核心领域的重要性及其实现数字化转型的作用。接着定义了机器学习,并区分了监督、无监督和强化学习等主要类型。随后,通过一个具体的场景——利用Python与scikit-learn库构建逻辑回归模型来预测客户的信用等级,详细阐述了从数据准备、模型训练到评估的全过程。此外,还介绍了如何借助阿里云机器学习平台PAI进行云上的模型训练和部署。最后,通过总结逻辑回归算法和其在金融领域的应用,鼓励读者深入学习并实践AI技术,以适应快速发展的科技趋势。
52 2
AI基础科普:机器学习入门与实践
|
4天前
|
人工智能 机器人
LLM活动 | 与 UP 主“老陈打码”一起使用 PAI×LLaMA Factory 搭建 AI 诸葛亮
LLaMA Factory是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过Web UI界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架,GitHub星标超过2万。本次活动基于Meta AI开源的Llama-3 8B模型,使用PAI平台及LLaMA Factory训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24小时为你出谋划策!
|
5天前
|
机器学习/深度学习 人工智能 算法
揭秘AI编程:从零开始的机器学习之旅
本文将带你走进人工智能的奇妙世界,一起探索机器学习的奥秘。我们将从最基础的概念入手,逐步深入到实际应用中,让你在轻松愉快的阅读过程中,对AI编程有一个全面而深刻的理解。无论你是编程新手,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启示。让我们一起开启这场充满智慧和乐趣的旅程吧!
17 1
|
10天前
|
机器学习/深度学习 人工智能 算法
AI与创造力的碰撞:探索机器学习在艺术创作中的角色
【8月更文挑战第9天】当科技遇见艺术,会擦出怎样的火花?本文将带您一探究竟,深入了解人工智能尤其是机器学习如何在现代和当代艺术创作中扮演着日益重要的角色。我们将通过具体实例探讨AI如何助力艺术家突破创意限制,以及这一技术趋势对艺术领域未来的可能影响。
|
12天前
|
机器学习/深度学习 人工智能 算法
探索自动化测试的未来:AI与机器学习的融合
在软件测试领域,自动化一直是提高效率和准确性的关键。随着人工智能(AI)和机器学习(ML)技术的飞速发展,它们正在逐步改变自动化测试的面貌。本文将探讨AI和ML如何增强自动化测试的能力,提高其智能性、预测性和适应性,并分析这些技术为测试实践带来的潜在变化和挑战。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
探索自动化测试的未来:AI与机器学习的融合
在软件测试领域,自动化测试一直是提高效率和质量的关键工具。然而,随着技术的发展,尤其是人工智能(AI)和机器学习(ML)的兴起,我们看到了自动化测试的新机遇和挑战。本文将探讨AI和ML如何改变自动化测试的面貌,从智能测试脚本的生成到预测性分析的应用,以及这些技术如何帮助测试人员更有效地识别和解决问题。我们将通过具体案例和最新研究成果,深入理解这一趋势对软件测试实践的影响。
|
17天前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络入门到精通:Python带你搭建AI思维,解锁机器学习的无限可能
【8月更文挑战第3天】踏入人工智能领域,神经网络是开启智慧之门的钥匙。它不仅是一种技术,更是模仿人脑学习与推理的思维方式。从理解神经元间的连接到构建神经网络的基本概念,再到使用Python与TensorFlow搭建手写数字识别模型,每一步都揭示着机器学习的奥秘。随着深入学习,我们将探索更高级的主题,比如深度神经网络、卷积神经网络和循环神经网络,以及如何优化模型性能。掌握背后的数学原理,将帮助我们设计更高效准确的模型。在这个旅程中,Python将是我们的得力助手,引领我们探索AI世界的无限可能。
23 2
|
5天前
|
人工智能 安全 搜索推荐
探索操作系统的未来:量子计算与AI的交汇点
在这篇文章中,我们将穿梭于现代科技的前沿,探讨操作系统如何适应并融合新兴技术,特别是量子计算和人工智能。通过简明的语言和清晰的结构,本文将引导读者了解这些技术如何重塑我们对数据处理、资源管理和用户交互的认识。
|
5天前
|
机器学习/深度学习 人工智能 算法
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
13 0