多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。

大模型人工智能数据并行模型并行流水线并行混合精度训练、梯度累积;模型卸载CPU;重算;模型压缩;内存优化版优化器;NvidiaA100;H100;A800;H800;L40s;混合专家910B;HGX H20;L20 PCIe;L2 PCIe


在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。


如何在多个 GPU 上训练大型模型?


神经网络的训练是一个反复迭代的过程。在每次迭代中,数据首先向前传播,通过模型的各层,为每个训练样本计算输出。然后,梯度向后传播,计算每个参数对最终输出的影响程度。这些参数的平均梯度和优化状态被传递给优化算法,如Adam,用于计算下一次迭代的参数和新的优化状态。随着训练的进行,模型逐渐发展以产生更准确的输出。


然而,随着大模型的到来,单机难以完成训练。并行技术应运而生,基于数据并行性、管道并行性、张量并行性和混合专家等策略,将训练过程划分为不同的维度。此外,由于机器和内存资源的限制,还出现了混合精度训练、梯度累积、模型卸载CPU、重算、模型压缩和内存优化版优化器等策略。


为进一步加速训练过程,可以从数据和模型两个角度同时进行并行处理。一种常见的方式是将数据切分,并将相同的模型复制到多个设备上,处理不同数据分片,这种方法也被称为数据并行。另外一种方法是模型并行即将模型中的算子划分到多个设备上分别完成(包括流水线并行和张量并行)。当训练超大规模语言模型时,需要对数据和模型同时进行切分,以实现更高级别的并行,这种方法通常被称为混合并行。通过这些并行策略,可以显著提高神经网络的训练速度和效率。


一、数据并行


在数据并行系统中,每个计算设备都有完整的神经网络模型副本,在进行迭代时,每个设备仅负责处理一批数据子集并基于该子集进行前向计算。假设一批次的训练样本数为N,使用M个设备并行计算,每个设备将处理N/M个样本。完成前向计算后,每个设备将根据本地样本计算误差梯度Gi(i为加速卡编号)并进行广播。所有设备需要聚合其他加速卡提供的梯度值,然后使用平均梯度(ΣN i=1Gi)/N来更新模型,完成该批次训练。



数据并行训练系统通过增加计算设备,可以显著提高整体训练吞吐量和每秒全局批次数。与单计算设备训练相比,最主要的区别在于反向计算中梯度需要在所有计算设备中进行同步,以确保每个计算设备上最终得到所有进程上梯度平均值。


二、模型并行


模型并行可以从计算图的角度出发,采用流水线并行和张量并行两种方式进行切分。


1、流水线并行


流水线并行(Pipeline Parallelism,PP)是一种计算策略,将模型的各层划分为多个阶段,并在不同计算设备上进行处理,实现前后阶段的连续工作。PP广泛应用于大规模模型的并行系统,以解决单个设备内存不足问题。下图展示了由四个计算设备组成的PP系统,包括前向计算和后向计算。其中F1、F2、F3、F4代表四个前向路径,位于不同设备上;B4、B3、B2、B1代表逆序后向路径,位于四个不同设备上。然而,下游设备需要等待上游设备计算完成才能开始计算任务,导致设备平均使用率降低,形成模型并行气泡或流水线气泡。



朴素流水线策略会导致并行气泡,使系统无法充分利用计算资源,降低整体计算效率。为减少并行气泡,可以将小批次进一步划分为更小的微批次,并利用流水线并行方案处理每个微批次数据。在完成当前阶段计算并得到结果后,将该微批次的结果发送给下游设备,同时开始处理下一微批次的数据,在一定程度上减少并行气泡。如下图所示,前向F1计算被拆解为F11、F12、F13、F14,在计算设备1中完成F11计算后,会在计算设备2中开始进行F21计算,同时计算设备1中并行开始F12的计算。与原始流水线并行方法相比,有效降低并行气泡。



2、张量并行


张量并行需要针对模型结构和算子类型处理参数如何在不同设备上进行切分,并确保切分后的数学一致性。大语言模型以Transformer结构为基础,包含三种算子:嵌入表示、矩阵乘和交叉熵损失计算。这三种算子具有较大差异,因此需要设计相应的张量并行策略,以便将参数分配到不同设备上。对于嵌入表示层参数,可按照词维度进行划分,每个计算设备只存储部分词向量,然后通过汇总各个设备上的部分词向量来获得完整的词向量。



矩阵乘的张量并行可以利用矩阵分块乘法原理来优化计算。以矩阵乘法Y = X × A为例,其中X是M × N维的输入矩阵,A是N × K维的参数矩阵,Y是M × K维的结果矩阵。当参数矩阵A过大超出单张卡的显存容量时,可以将A切分到多张卡上,并通过集合通信汇集结果,确保最终结果的数学计算等价于单计算设备的计算结果。参数矩阵A有两种切分方式:


1)按列切分


将矩阵A按列切成A1和A2,分别放置在两个计算设备上。两个计算设备分别计算Y1 = X × A1和Y2 = X × A2。计算完成后,多计算设备间进行通信,拼接得到最终结果矩阵Y,其数学计算与单计算设备结果等价。


2)按行切分


将矩阵A按行切成B1,B2,...,Bn,每个Bi为N*(K/n)即(K/n)N维。将这n个切分后的矩阵分别放到n个GPU上,则可并行执行矩阵乘法Y=XB1,Y=X*(B1+B2),...,Y=X*(B1+B2+...+Bn)。每步并行计算完成后,各GPU间进行通信,拼接得到最终结果矩阵Y。



在Transformer中FFN结构包含两层全连接(FC)层,每层都涉及两个矩阵乘法。这两个矩阵乘法分别采用上述两种切分方式。对于第一个FC层的参数矩阵,采用按列切块方式,而对于第二个FC层参数矩阵,则采用按行切块方式。这样的切分方式使得第一个FC层输出能够直接满足第二个FC层输入要求(按列切分),从而省去了第一个FC层后汇总通信操作。



多头自注意力机制张量并行与FFN类似,由于具有多个独立的头,因此相较于FFN更容易实现并行。其矩阵切分方式如图所示。



在分类网络最后一层,通常会使用Softmax和Cross_entropy算子来计算交叉熵损失。然而,当类别数量非常大时,单计算设备内存可能无法存储和计算logit矩阵。针对这种情况,可以对这类算子进行类别维度切分,并通过中间结果通信来获得最终的全局交叉熵损失。首先计算的是softmax值,其公式如下:

在计算交叉熵损失时,可以采用张量并行的方式,按照类别维度对softmax值和目标标签进行切分,每个设备计算部分损失。最后再进行一次通信,得到所有类别的损失。整个过程中,只需要进行三次小量的通信,就可以完成交叉熵损失的计算。


3、管道并行


管道并行性将模型按层“垂直”分割。同时,还可以“水平”分割层内的某些操作,称为张量并行训练。对于现代模型(如Transformer)的计算瓶颈,即将激活批矩阵与大权重矩阵相乘,可以在不同GPU上计算独立的点积或每个点积的一部分并对结果求和。无论采用哪种策略,都可以将权重矩阵分割成均匀大小的分片,托管在不同的GPU上,并使用分片计算整个矩阵乘积的相关部分,再通过通信组合结果。Megatron-LM是一个例子,在Transformer自注意力层和MLP层中实现矩阵乘法的并行化。PTD-P结合张量、数据和管道并行性,通过为每个设备分配多个非连续层以减少气泡开销,但增加了网络通信成本。有时,输入可以跨维度并行化,并通过更细粒度的示例进行计算,以减少峰值内存消耗。序列并行是一种思想,将输入序列在时间上分割成多个子示例,从而按比例减少内存消耗。


四、混合专家 (MoE)


随着研究人员试图突破模型大小限制,混合专家 (MoE) 方法引起广泛关注。其核心思想是集成学习,即多个弱学习器组合可生强大的学习器。使用 MoE 方法时,仅需使用网络一小部分即可计算任何输入的输出。一种示例方法是拥有多组权重,网络可以在推理时通过门控机制选择使用哪一组权重。这可以在不增加计算成本的情况下启用更多参数。每组权重都被称为“专家”,希望网络能够学会为每个专家分配专门的计算和技能。不同专家可以托管在不同 GPU 上,从而提供一种清晰方法来扩展模型所使用的 GPU 数量。恰好一层 MoE 包含作为专家前馈网络 {E_i}^n_{i=1} 和可训练门控网络 G 学习概率分布 n “专家”,以便将流量路由到少数选定的 “专家”。当 “专家” 数量过多时,可以考虑使用两级分层 MoE。



GShard(Google Brain团队开发的一款分布式训练框架

)通过分片将MoE变压器模型扩展至6000亿个参数。MoE变压器用MoE层替换所有其他前馈层。分片MoE变压器仅具有跨多台机器分片的MoE层,其他层只是简单地复制。Switch Transformer(Transformer类的万亿级别模型

)通过稀疏开关FFN层替换密集前馈层(其中每个输入仅路由到一个专家网络),将模型大小扩展到数万亿个参数,并具有更高的稀疏性。


五、其他节省内存的设计


1、混合精度计算(Mixed Precision Training)


混合精度训练(Mixed Precision Training)是指在训练模型时同时使用16位和32位浮点类型,以加快运算速度和减少内存使用。在NVIDIA GPU上,使用float16进行运算比使用float32快一倍多,大大提高了算力的上限。然而,将模型的运算转换为FP16并不能完全解决问题,因为FP16的数值范围远小于FP32和TF32,限制模型的运算能力。为确保模型能够收敛到与FP32相同结果,需要采用额外的技巧。

1)权重备份(Weight Backup)


其中一种避免以半精度丢失关键信息的技术是权重备份。在训练时,权重、激活值和梯度都使用FP16进行计算,但会额外保存TF32的权重值。在进行梯度更新时,对TF32的权重进行更新。在下一步训练时,将TF32的权重值转换为FP16,然后进行前向和反向计算。


2)损失缩放(Loss Scaling)

在训练模型时,由于梯度量级往往非常小,使用FP16格式可能会导致一些微小梯度直接被归零。大部分非零梯度实际上并不在FP16表示范围内。由于FP16格式右侧部分并未被充分利用,我们可以通过将梯度乘以一个较大系数,使整个梯度分布向右移动并完全落在FP16表示范围内。一种简单方法是在计算梯度之前先将损失乘以一个较大值,以此放大所有梯度。在进行梯度更新时,再将其缩小回原来的并使用TF32进行更新。


3)精度累加(Precision Accumulation)

在FP16模型中,一些算术运算如矩阵乘法需要用TF32来累加乘积结果,然后再转换为FP16。例如,Nvidia GPU设备中的Tensor Core支持利用FP16混合精度加速,同时保持精度。Tensor Core主要用于实现FP16的矩阵相乘,并在累加阶段使用TF32大幅减少混合精度训练的精度损失。



2、梯度累积(Gradient Accumulation)


梯度累积是一种神经网络训练技术,通过将数据样本按批次拆分为几个小批次,并按顺序计算。在每个小批次中,计算梯度并累积,在最后一个批次后求平均来更新模型参数。神经网络由许多相互连接的神经网络单元组成,样本数据通过所有层并计算预测值,然后通过损失函数计算每个样本的损失值(误差)。神经网络通过反向传播算法计算损失值相对于模型参数的梯度,并利用这些梯度信息来更新网络参数。梯度累积每次获取一个批次的数据,计算一次梯度(前向),不断累积梯度,累积一定次数后根据累积的梯度更新网络参数,然后清空所有梯度信息进行下一次循环。



3、卸载CPU(CPU Offloading)


CPU Offloading是指将未使用的数据暂时卸载到CPU或不同的设备之间,并在需要时重新读取回来。由于CPU存储相比GPU存储具有更大的空间和更低的价格,因此实现双层存储可以大大扩展训练时的存储空间。然而,简单的实现可能会导致训练速度降低,而复杂的实现需要实现预取数据以确保设备无需等待。ZeRO是一种实现这一想法的方式,它将参数、梯度和优化器状态分配到所有可用的硬件上,并根据需要进行具体化。


4、激活重新计算(Activation Recomputation)


Recompute是一种在前向计算中释放tensor,在反向传播时需要重新计算的方法,适用于占用内存大但重新计算量小的tensor。重新计算的方式有三种:


Speed Centric会保留计算出的tensor以备后续使用;

Memory Centric会在计算完成后释放tensor,需要时再重新计算;

Cost Aware会在计算完成后判断是否保留tensor,若可能导致内存峰值则释放。


可以将swap和recompute结合使用,针对特定op采用不同方式。还可以预先迭代几次,收集内存和运行时间信息,判断哪些tensor该swap,哪些该recompute。



5、模型压缩(Compression)


模型压缩是通过裁剪、权重共享等方式处理大模型,以减少参数量。然而,这种方式容易降低模型精度,因此使用较少。常见的模型压缩方法包括修剪、权重共享、低秩分解、二值化权重和知识蒸馏。


修剪可以采用对连接、kernel、channel进行裁剪的方式;权重共享是通过共享模型参数来减少参数量;低秩分解将矩阵分解为低秩形式,从而减少参数量;二值化权重是将权重从32位降至8位或16位,实现混合精度训练;知识蒸馏是使用训练好的教师模型指导学生模型训练。



6、高效内存优化器(Memory Efficient Optimizer)


优化器在模型训练中的内存消耗是一个重要问题。以Adam优化器为例,它需要存储动量和方差,与梯度和模型参数规模相同,内存需求增加。为减少内存占用,已经提出了几种优化器,如Adafactor和SM3,采用不同的方法估计二阶矩或大幅减少内存使用。


ZeRO优化器是一种针对大型模型训练的内存优化方法。通过观察模型状态和激活临时缓冲区及不可用碎片内存的消耗,采用两种方法:ZeRO-DP和ZeRO-R。ZeRO-DP通过动态通信调度来减少模型状态上的冗余,而ZeRO-R则使用分区激活重新计算、恒定缓冲区大小和动态内存碎片整理来优化残留状态的内存消耗。


英伟达禁令之后,中国AI计算何去何从?

在10月17日,美国强化对中国市场的AI芯片禁令,将性能和密度作为出口管制标准,禁止出口单芯片超过300teraflops算力、性能密度超过每平方毫米370gigaflops的芯片。由于限制AMD、英特尔等公司的高端AI芯片,尤其是英伟达的主流AI训练用GPU A100和H100,该禁令又被称为“英伟达禁令”。


针对新的芯片禁令,AI产业议论纷纷,焦点主要集中在实施时间、缓冲地带、涉及的GPU型号和禁令期限等方面。尽管存在争议,但针对中国的高端AI芯片禁令仍在坚定推行。


现在,AI行业必须形成共识应对挑战。与其过分关注被禁的GPU,我们应更深入思考在芯片铁幕时代下中国AI计算未来发展路径。下面将探讨当前产业形势并共同探讨AI计算前行之路。


一、目前现状


与之前情况相比,英伟达禁令出台后大众舆论与AI行业反应似乎更为冷静。仅在消费级显卡RTX 4090是否被禁问题上引发游戏玩家和商家争论。尽管行业不希望看到高端AI芯片被禁售,但对此局面已有预期。美国对华芯片封锁已持续多年,英伟达部分高端GPU已被禁止出售,产业界的反应也从惊讶转变为冷静应对。加上ChatGPT的火爆导致全球高端GPU市场行情上涨,美国方面多次表示要推动对华整体性的高端AI芯片禁售。


为应对禁令并受到大模型发展的推动,去年年底到今年上半年,众多中国科技、金融、汽车等企业集中购买英伟达高端GPU,导致市场上GPU供不应求。对于许多中国中小型科技企业和AI创业公司来说,原本就很难买到高端GPU,禁售并未带来太大变化。实际上,国内AI芯片产业在贸易摩擦初期便开始加速发展,虽然英伟达的高端GPU在AI训练需求方面难以替代,但并非不可替代。


此外,AI芯片与手机芯片不同,并不关乎大众消费者。华为已在手机芯片领域取得突破。因此,无论是大众还是行业,对禁令都持坦然态度,甚至有些习以为常。然而,必须承认的是,禁令对中国AI行业仍造成了一定程度的伤害:短期内更换英伟达GPU面临芯片产能和生态兼容性等难题;禁令还将直接损害使用英伟达产品的AI服务器等领域的厂商。


长期禁令可能使中国AI计算与全球高端芯片脱钩,可能带来复杂的负面影响,包括:中国AI算力发展可能落后于英伟达高端GPU的更新迭代;在底层算力发展分歧下,中国AI产业可能在软件技术方面掉队;科技封锁可能从AI芯片扩展到通用算力、存储、基础软件等数字化基础能力。因此,需要制定三项同时发力的“突围方案”:加快国产AI芯片的自主研发和生态建设;加大力度投资大模型等软件技术,降低对英伟达等公司的依赖;加强与国际科技合作,推动中国AI计算的全球化发展。


二、解决方案一:用好买家身份


作为全球芯片市场最大买家,中国企业应该利用好这个身份,摆脱中美科技贸易中的思维误区。我们往往认为游戏规则是由美国政府和企业制定的,只能被动接受,但实际上作为买家应该拥有更多话语权。针对中国市场的AI芯片禁令,最直接伤害的是以英伟达为代表的美国科技巨头,因为中国市场对他们的AI芯片需求最大。英伟达CEO黄仁勋曾表示,如果被剥夺了中国市场,他们将没有应急措施,世界上没有另一个中国。因此,我们应该认识到作为买家的力量,并利用好这个身份来维护自己的利益。



我们可以看到美国科技公司和政府之间的矛盾。科技公司追求商业利益,而政府则追求政治利益。美国科技公司一直在尝试反对和绕过禁令,例如英伟达推出针对中国市场的特供版GPU。


三、解决方案2:以云代卡,算力集中


在可见的较长时间里,美国对中国AI芯片封禁只会加强,这给AI大模型发展带来挑战。许多业内人士认为,大模型发展虽快,但没有呈现此前科技风口的迅猛局面,投资缺钱、计算缺卡是主要原因。


为解决中国AI产业在禁令之下的算力缺口问题,企业需要加大云端AI算力配置和投入,推动以云代卡。事实上,在高端AI芯片可能被禁的大趋势下,中国几大公有云厂商都开始加强囤积英伟达高端GPU。这不仅因为自身需要加大大模型投入,打开MaaS市场,也对AI算力有直接需求。此外,GPU转化为云资源池后可以长期复用,对云厂商来说具有进可攻、退可守的优势。因此,今年上半年出现高端AI芯片流向云厂商、中小企业难以获得芯片的局面。


客观来看,这种高端AI芯片集中向云的举动有利于中国市场统筹应对AI芯片禁令,也符合东数西算战略思路。另一趋势是,随着大模型参数和使用数据量不断加大,本地化卡池训练已经越来越紧张,在云端进行千卡、万卡训练成为未来主要发展方向,因此企业用户会更加积极地走向云端。



同时,云端AI算力不仅限于囤积英伟达GPU。随着政策推动和自主AI芯片采购力度的加大,云端化和自主化结合的AI算力将成为发展趋势。根据IDC数据,2023上半年中国AI服务器已经使用50万块自主开发的AI加速器芯片。华为已经推出昇腾AI云服务,提供自主AI算力服务。在东数西算背景下,各地建立一批采用自主AI算力的AI计算中心,保障云端AI算力稳定可靠供给。


然而,很多企业仍然倾向于采购本地AI算力。一方面是因为英伟达GPU市场紧缺,保值性高,甚至可以作为企业的核心资产。另一方面是因为云端AI算力存在排队、宕机、软件服务缺失等问题,影响开发者体验。为进一步提高开发者的云端AI算力使用体验,公有云厂商需要进一步努力。


四、方案三:让国产AI算力爆发式成长


面对新一轮AI芯片禁令,中国AI产业并非依赖英伟达的高端GPU,而是经过多年发展,AI芯片产业已经得到巨大发展。虽然英伟达市场份额仍占主导,国产AI算力已经具备一定市场占比,但在核心性能、软件生态和出货能力方面仍需不断提升。客观上,禁令的倒逼将加速国产AI算力的成长与成熟周期。


为了实现这个目标,有几件事非常重要:


1、形成产业共识,避免概念混淆


虽然AI芯片市场呈现出众多品牌和类型参与者,但其中存在的问题也不容忽视。对于类脑芯片等前沿技术,目前仍处于畅想阶段,而一些AI芯片厂商仅能自用,无法面向市场出货,同时还有大量厂商处于早期建设阶段,短期内对AI计算自主化贡献有限。

为应对英伟达高端GPU禁售问题,需要将关注点集中在可行、有效的GPU替代方案上,避免过多的联想和发散。只有形成产业共识,才能更好地解决问题。


2、走向规模化商用,避免PPT造芯


目前国内能够出货的AI芯片厂商主要集中在华为、百度、燧原科技和海光信息等少数几家。大量半导体厂商与AI企业还停留在打造芯片的计划与愿景上,导致政策支持与投资市场期待的国产AI芯片发展停滞,甚至有些企业可能只是在这一阶段享受金融市场红利而缺乏实质性进展。


为推动产业发展,未来的产业导向应该重将AI芯片从计划转向出货,帮助厂商获得直接商业回馈,让产品与产能接受市场检验,逐步塑造正向现金流。


3、加强软件生态,强化迁移能力


英伟达GPU重要性不仅在于硬件性能,更在于其CUDA和PyTorch等软件生态的强大能力。因此,发展国产AI芯片不能忽视软件能力的提升。在加强自主软件生态建设的同时,还需要关注基于英伟达生态的AI模型迁移能力和迁移成本。


许多厂商已经在这方面进行探索,例如海光信息的DCU与CUDA在生态和编程环境上高度相似,使得CUDA用户能够以较低代价快速迁移到海光的ROCm平台。此前,PyTorch2.1版本宣布支持华为昇腾,显示出国产AI芯片已经具备一定的规模化影响力,可以更多地融入全球软件生态。未来要实现国产AI计算的爆发,离不开国产AI基础软件生态的蓬勃发展。



4、加大对“主品牌”支持,形成规模化效应


在中国,为加速AI计算的成熟并实现自主化替代,应尽快形成一超多强的市场格局,避免生态割裂和IT投资浪费。在这个过程中,市场机制将起到决定性作用。然而,在当前芯片禁令背景下,国产AI计算崛起已刻不容缓,应加速形成一个“主品牌”来快速替代英伟达等进口芯片。


目前看来,华为昇腾系列是最有可能成为国产AI算力的主品牌之一。科大讯飞董事长刘庆峰曾表示,华为GPU已经与英伟达A100并驾齐驱。数据显示,昇腾310的整数精度算力达到16TOPS,而昇腾910的整数精度算力更是高达640TOPS,这意味着昇腾910的性能已接近英伟达A100。


同时,昇腾是目前唯一在市场上占据一定份额的国产AI算力品牌,并在软件方面培育类似英伟达CUDA的异构计算架构CANN和AI计算框架MindSpore。从核心性能、软件生态和市场占有率三个角度来看,昇腾已经具备加快成长并实现AI算力大规模国产化替代的可能性。


短期内推动国产AI算力快速成长的主要途径包括规范行业标准、强化软件建设以及提高自主品牌的支持。英伟达禁令是中国AI行业不愿面对、尽力避免,但又讳莫如深的问题。


英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制

据知情人士透露,NVIDIA已研发出为中国市场量身打造的新型改良AI芯片系列,包括HGX H20、L20 PCle和L2 PCle。在美国政府针对中国高科技行业加强出口限制的大背景下,NVIDIA的这一举动被业界视为对相关政策调整的直接回应。此举可能暗示该公司正在寻找遵守规定的同时保持市场竞争力的策略。



据业内人士透露,英伟达为中国市场研发新一代改进型AI芯片系列,包括HGX H20、L20 PCIe和L2 PCIe。这些芯片都基于英伟达的H100系列芯片,并采用了不同的架构。


HGX H20采用NVIDIA Hopper架构,并配备高达96 GB的HBM3内存,提供4TBB/s的带宽。适用于要求极高的计算场景,展现出了卓越的性能。


L20 PCIe和L2 PCIe则采用NVIDIA Ada Lovelace架构,并针对不同计算需求提供多样化的选择。L20 PCIe配备48 GB GDDR6 w/ ECC内存,而L2 PCIe则拥有24 GB GDDR6 w/ ECC内存。特别值得注意的是,H20型号没有RT Core,而L20和L2 PCIe则增加了这一功能,表明它们在光线追踪能力上有所加强。


这些新系列芯片可能通过调整性能参数来满足中国市场的特殊要求并规避某些出口禁令中的敏感技术。虽然这样的产品定制化可能会带来技术创新,但同时也可能带来技术分裂的风险,引发行业对技术标准分化的担忧。


分析人士认为,NVIDIA的这一举措是其全球供应链战略的重要组成部分,反映出公司对全球经济形势的灵活适应。此举将有助于NVIDIA维持在中国市场的业务活动和客户关系,同时也可能推动中国本土厂商加速技术自立自强的步伐。


尽管美国的出口限制给中国市场的技术产品带来了挑战,但据知情人士透露,英伟达已经采取了针对性的技术调整,以符合出口规则,确保其产品可以顺利进入中国市场。据悉,英伟达预计将在11月16日之后宣布这一新系列产品,届时将有更多细节公布。尽管英伟达尚未对此消息作出官方回应,但市场对这些可能的新产品已经充满期待。


蓝海大脑大模型训练平台

蓝海大脑大模型训练平台提供强大的算力支持,包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑,满足大模型训练中张量并行的通信需求。支持高性能I/O扩展,同时可以扩展至万卡AI集群,满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术,当BMC收到PSU故障或错误警告(如断电、电涌,过热),自动强制系统的CPU进入ULFM(超低频模式,以实现最低功耗)。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。


一、为什么需要大模型?


1、模型效果更优


大模型在各场景上的效果均优于普通模型


2、创造能力更强


大模型能够进行内容生成(AIGC),助力内容规模化生产


3、灵活定制场景


通过举例子的方式,定制大模型海量的应用场景


4、标注数据更少


通过学习少量行业数据,大模型就能够应对特定业务场景的需求


二、平台特点


1、异构计算资源调度


一种基于通用服务器和专用硬件的综合解决方案,用于调度和管理多种异构计算资源,包括CPU、GPU等。通过强大的虚拟化管理功能,能够轻松部署底层计算资源,并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力,以加快模型的运行速度和生成速度。


2、稳定可靠的数据存储


支持多存储类型协议,包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通,提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制,确保模型和数据的安全稳定运行。


3、高性能分布式网络


提供算力资源的网络和存储,并通过分布式网络机制进行转发,透传物理网络性能,显著提高模型算力的效率和性能。


4、全方位安全保障


在模型托管方面,采用严格的权限管理机制,确保模型仓库的安全性。在数据存储方面,提供私有化部署和数据磁盘加密等措施,保证数据的安全可控性。同时,在模型分发和运行过程中,提供全面的账号认证和日志审计功能,全方位保障模型和数据的安全性。


三、常用配置


1、处理器CPU:


  • Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
  • Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W
  • Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W
  • Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W
  • AMD EPYC™ 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W
  • AMD EPYC™ 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W


2、显卡GPU:


  • NVIDIA L40S GPU 48GB
  • NVIDIA NVLink-A100-SXM640GB
  • NVIDIA HGX A800 80GB
  • NVIDIA Tesla H800 80GB HBM2
  • NVIDIA A800-80GB-400Wx8-NvlinkSW


相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
3月前
|
机器学习/深度学习 存储 PyTorch
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
69 0
|
4月前
|
人工智能 机器人 Serverless
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
584 2
|
5月前
|
机器学习/深度学习 弹性计算 TensorFlow
阿里云GPU加速:大模型训练与推理的全流程指南
随着深度学习和大规模模型的普及,GPU成为训练和推理的关键加速器。本文将详细介绍如何利用阿里云GPU产品完成大模型的训练与推理。我们将使用Elastic GPU、阿里云深度学习镜像、ECS(云服务器)等阿里云产品,通过代码示例和详细说明,带你一步步完成整个流程。
907 0
|
5月前
|
机器学习/深度学习 异构计算 Python
Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)
对于深度学习初学者来说,JupyterNoteBook的脚本运行形式显然更加友好,依托Python语言的跨平台特性,JupyterNoteBook既可以在本地线下环境运行,也可以在线上服务器上运行。GoogleColab作为免费GPU算力平台的执牛耳者,更是让JupyterNoteBook的脚本运行形式如虎添翼。 本次我们利用Bert-vits2的最终版Bert-vits2-v2.3和JupyterNoteBook的脚本来复刻生化危机6的人气角色艾达王(ada wong)。
Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)
|
2月前
|
机器学习/深度学习 并行计算 PyTorch
【多GPU炼丹-绝对有用】PyTorch多GPU并行训练:深度解析与实战代码指南
本文介绍了PyTorch中利用多GPU进行深度学习的三种策略:数据并行、模型并行和两者结合。通过`DataParallel`实现数据拆分、模型不拆分,将数据批次在不同GPU上处理;数据不拆分、模型拆分则将模型组件分配到不同GPU,适用于复杂模型;数据和模型都拆分,适合大型模型,使用`DistributedDataParallel`结合`torch.distributed`进行分布式训练。代码示例展示了如何在实践中应用这些策略。
60 2
【多GPU炼丹-绝对有用】PyTorch多GPU并行训练:深度解析与实战代码指南
|
2月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
2月前
|
运维 监控 Serverless
一键开启 GPU 闲置模式,基于函数计算低成本部署 Google Gemma 模型服务
本文介绍如何使用函数计算 GPU 实例闲置模式低成本、快速的部署 Google Gemma 模型服务。
164785 57
|
3月前
|
并行计算 TensorFlow 算法框架/工具
|
5月前
|
达摩院 并行计算 异构计算
modelscope调用的模型如何指定在特定gpu上运行?排除使用CUDA_VISIBLE_DEVICES环境变量
由于个人需要,家里有多张卡,但是我只想通过输入device号的方式,在单卡上运行模型。如果设置环境变量的话我的其他服务将会受影响。
|
5月前
|
机器学习/深度学习 缓存 PyTorch
Yolov5如何训练自定义的数据集,以及使用GPU训练,涵盖报错解决
Yolov5如何训练自定义的数据集,以及使用GPU训练,涵盖报错解决
374 0

热门文章

最新文章