单机训练200亿参数大模型:Cerebras打破新纪录

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 单机训练200亿参数大模型:Cerebras打破新纪录

不仅参数量要卷,训练效率也要卷。


本周,芯片创业公司 Cerebras 宣布了一个里程碑式的新进展:在单个计算设备中训练了超过百亿参数的 NLP(自然语言处理)人工智能模型。

由 Cerebras 训练的 AI 模型体量达到了前所未有的 200 亿参数,所有这些都无需横跨多个加速器扩展工作负载。这项工作足以满足目前网络上最火的文本到图像 AI 生成模型——OpenAI 的 120 亿参数大模型 DALL-E。

Cerebras 新工作中最重要的一点是对基础设施和软件复杂性的要求降低了。这家公司提供的芯片 Wafer Scale Engine-2(WSE2)顾名思义,蚀刻在单个台积电 7 nm 制程的整块晶圆上,该面积通常足以容纳数百个主流芯片——具有惊人的 2.6 万亿个晶体管、85  万个 AI 计算内核和 40 GB 集成缓存,封装后功耗高达 15kW。

接近晶圆大小的 Wafer Scale Engine-2,面积比一个 iPad 还大。

虽然 Cerebras 的单机在体量上已经类似于超算了,但在单块芯片中保留多达 200 亿个参数的 NLP 模型仍然显著降低了数千个 GPU 的训练成本,以及相关的硬件和扩展要求,同时消除了在它们之间分割模型的技术困难。Cerebras 表示,后者是「NLP 工作负载中最痛苦的方面之一」,有时「需要几个月才能完成」。

这是一个定制化的问题,不仅对每个正在处理的神经网络,对于每个 GPU 的规格以及将它们联系在一起的网络都是独一无二的——这些元素必须在第一次训练开始之前提前设置好,而且也不能跨系统移植。

Cerebras 的 CS-2 是一个独立的超级计算集群,其中包括 Wafer Scale Engine-2 芯片,所有相关的电源、内存和存储子系统。

200 亿的参数量大概是个什么水平?在人工智能领域里,大规模预训练模型是最近各家科技公司和机构正在努力发展的方向,OpenAI 的 GPT-3 是一种 NLP 模型,它可以写出足以欺骗人类读者的整篇文章、做数学运算和翻译,其具有惊人的 1750 亿个参数。DeepMind 的 Gopher 于去年年底推出,将参数量的纪录提高到 2800 亿。

最近一段时间,谷歌大脑甚至宣布训练了一个超过万亿参数的模型 Switch Transformer。

「在 NLP 领域中,体量更大的模型被证明效果更好。但传统上,只有极少数公司拥有足够的资源和专业知识来完成分解这些大型模型,将其分散到数百或数千个图形处理单元的艰苦工作,」Cerebras 首席执行官、联合创始人 Andrew Feldman 说道。「因此也只有极少数公司可以训练大型 NLP 模型——这对于行业的其他人来说太昂贵、太耗时且无法使用。」

现在,Cerebras 的方法能够降低 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B 模型的应用门槛,使整个 AI 生态系统能够在几分钟内建立大型模型,并在单个 CS-2 系统上训练它们 。


然而,就像旗舰级 CPU 的时钟速度一样,参数量只是大模型性能的其中一项指标。最近,一些研究在减少参数的前提下已经取得了更好的结果,例如 DeepMind 今年 4 月提出的 Chinchilla,只用 700 亿个参数就在常规情况下超过了 GPT-3 和 Gopher。

这类研究的目标当然是更智能的工作,而不是更努力地工作。因此 Cerebras 的成就比人们第一眼看到的更为重要——该研究让我们相信现有的芯片制程水平能够适应日益复杂的模型,该公司表示,以特殊芯片为核心的系统具备了支撑「数千亿甚至数万亿参数」模型的能力。

在单芯片上可训练参数量的爆炸式增长需要依赖 Cerebras 的 Weight Streaming 技术。该技术可以将计算和内存占用分离,根据 AI 工作负载中快速增长的参数量,允许内存进行任意量级的扩展。这使得设置时间从几个月减少到几分钟,并且可以在 GPT-J 和 GPT-Neo 等型号之间切换。正如研究者所说:「只需要敲几次键盘。」

「Cerebras 以低成本、便捷的方式向人们提供了运行大型语言模型的能力,开启了人工智能令人兴奋的新时代。它为那些不能花费数千万美元的组织提供了一个简单而廉价的,参与到大模型竞争之中的方式,」Intersect360 研究公司的首席研究官 Dan Olds 说道。「当 CS-2 客户在大量数据集上训练 GPT-3 和 GPT-J 级模型时,我们非常期待 CS-2 客户的新应用和新发现。」

参考内容:https://www.tomshardware.com/news/cerebras-slays-gpus-breaks-record-for-largest-ai-models-trained-on-a-single-devicehttps://www.cerebras.net/press-release/cerebras-systems-sets-record-for-largest-ai-models-ever-trained-on-a-single-device/

相关文章
|
12天前
|
数据采集 人工智能 算法
谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍
【8月更文挑战第31天】近日,谷歌发布了一项名为多模态对比学习联合示例选择(JEST)的研究成果,旨在优化大模型预训练过程中的数据筛选。JEST通过联合选择数据批次而非独立选择示例,利用多模态对比目标揭示数据间的依赖关系,提高了学习效率。实验表明,JEST能显著加速训练并降低计算成本,最多减少13倍迭代次数和10倍计算量。这一成果有望推动大模型预训练更加高效和经济。论文详情见:https://arxiv.org/abs/2406.17711。
20 2
|
2月前
|
SQL UED
领域模式问题之大模型应用的规模成本增加如何解决
领域模式问题之大模型应用的规模成本增加如何解决
|
3月前
|
算法 测试技术 异构计算
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
|
4月前
|
人工智能 安全 测试技术
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
【2月更文挑战第18天】Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
65 3
Infection-2.5登场,训练计算量仅40%、性能直逼GPT-4!
|
存储 算法 数据可视化
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
179 0
|
人工智能 自然语言处理 机器人
ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成
ChatGPT开源替代来了!参数量200亿,在4300万条指令上微调而成
158 0
|
存储 算法 数据可视化
将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可
将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可
224 0
|
机器学习/深度学习 存储 自然语言处理
基于单机最高能效270亿参数GPT模型的文本生成与理解
针对GPT基础模型参数量大,训练&推理硬件资源消耗过高等问题,我们采用GPT+MoE的技术架构路线,探索单机最高能效的绿色低碳GPT大模型训练&推理软硬一体化适配技术在中文文本生成场景的落地可行性。
基于单机最高能效270亿参数GPT模型的文本生成与理解
|
机器学习/深度学习 人工智能 安全
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
用户增长模型:AARRR
AARRR是用来分析用户增长的一个框架。分别表示获取(Acquisition)、激活(Activation)、留存(Retention)、变现(Revenue)和传播(Referral)。
214 0
用户增长模型:AARRR