科技云报道:黑马Groq单挑英伟达,AI芯片要变天?

简介: 从AI训练到AI推理

科技云报道原创。

近一周来,大模型领域重磅产品接连推出:OpenAI发布“文字生视频”大模型Sora;Meta发布视频预测大模型 V-JEPA;谷歌发布大模型 Gemini 1.5 Pro,更毫无预兆地发布了开源模型Gemma......

难怪网友们感叹:“一开年AI发展的节奏已经如此炸裂了么!”

但更令人意想不到的是,AI芯片领域处于绝对霸主地位的英伟达,竟然也遇到了挑战,而且挑战者还是一家初创公司。

在这家名叫Groq的初创芯片及模型公司官网上,它号称是世界最快大模型,比GPT-4快18倍,测试中最快达到破纪录的每秒吞吐500 tokens。

这闪电般的速度,来源于Groq自研的LPU(语言处理单元),是一种名为张量流处理器(TSP)的新型处理单元,自然语言处理速度是英伟达GPU 10倍,做到了推理的最低延迟。

“快”字当头,Groq可谓赚足眼球。Groq还喊话各大公司,扬言在三年内超越英伟达。

事实上,在这一波AI热潮中,“天下苦英伟达久矣”。英伟达GPU芯片价格一再被炒高,而Groq的LPU架构能“弯道超车”,显然是众望所归。

因此,不少舆论惊呼Groq要颠覆英伟达,也有业内人士认为Groq想要“平替”英伟达还有很长的路要走。

但无论持哪种观点,Groq的出现不仅是对现有芯片架构和市场格局的挑战,也预示着AI芯片及其支撑的大模型发展方向正在发生变化——聚焦AI推理。
24125.jpg

Groq LPU:快字当头

据介绍,Groq的芯片采用14nm制程,搭载了230MB大静态随机存储器(SRAM)以保证内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

Anyscale的LLMPerf排行显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。

据网友测试,面对300多个单词的“巨型”prompt(AI模型提示词),Groq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划。此外,Groq还完全实现了远程实时的AI对话。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默(Matt Shumer)在体验Groq后称赞其快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。

更令人惊讶的是,其超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。

Groq之所以“快如闪电”,其创新的核心在于LPU。

据官方信息显示,LPU推理引擎是一种新型的端到端处理单元系统,它为计算密集型应用提供最快的推理能力,这些应用具有序列组件,例如AI语言应用程序(LLM)。

LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。

就LLM而言,LPU比GPU和CPU具有更大的计算能力。这减少了每个单词的计算时间,从而可以更快地生成文本序列。

同时,与利用高带宽内存(HBM)的GPU不同,Groq的LPU利用SRAM进行数据处理,比HBM快约20倍,从而显著降低能耗并提高效率。

GroqChip的独特架构与其时间指令集相结合,可实现自然语言和其他顺序数据的理想顺序处理。

消除外部内存瓶颈,不仅使LPU推理引擎能够在LLM上提供比GPU高几个数量级的性能。

而且由于LPU只进行推理计算,需要的数据量远小于模型训练,从外部内存读取的数据更少,消耗的电量也低于GPU。

此外,LPU芯片设计实现了多个TSP的无缝连接,避免了GPU集群中的瓶颈问题,显著地提高了可扩展性。

因此,Groq公司宣称,其LPU所带来的AI推理计算是革命性的。

在AI推理领域挑战GPU

尽管Groq高调喊话,但想要“平替”英伟达GPU并不容易。从各方观点来看,Groq的芯片还无法与之分庭抗礼。

原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账,因为Groq小得可怜的内存容量,在运行Llama 2 70B模型时,需要305张Groq卡才足够,而用英伟达的H100则只需要8张卡。

从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

但跳出单纯的价格对比,Groq LPU的解决方案依然展现出了不小的应用潜力。

根据机器学习算法步骤,AI芯片可以划分为训练AI芯片和推理AI芯片。

训练芯片是用于构建神经网络模型,需要高算力和通用性,追求的是高计算性能(高吞吐率)、低功耗。

推理芯片是对训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论。

因此完成推理过程的时间要尽可能短、低功耗,更关注用户体验方面的优化。

虽然现阶段GPU利用并行计算的优势在AI领域大获全胜,但由于英伟达GPU的独有架构,英伟达H100等芯片在推理领域算力要求远不及训练端,这也就给Groq等竞争对手留下了机会。

因此,专注于AI推理的Groq LPU,得以在推理这个特定领域挑战英伟达GPU的地位。从测试结果上看,Groq能够达到令人满意的“秒回”效果。

这也在一定程度上显示了通用芯片与专用芯片的路径分歧。

随着AI和深度学习的不断发展,对专用芯片的需求也在增长。

各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现,它们在各自擅长的领域内展现出了挑战GPU的可能性。

相比于英伟达通用型AI芯片,自研AI芯片也被称作ASIC,往往更适合科技公司本身的AI工作负载需求且成本较低。

比如,云巨头AWS就推出了为生成式AI和机器学习训练而设计全新自研AI芯片AWS Trainium2,性能比上一代芯片提高到4倍,可提供65ExaFlops超算性能。

微软也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia,后者是微软首款AI芯片,主要针对大语言模型训练,预计将于明年初开始在微软Azure数据中心推出。

谷歌云也推出了新版本的TPU芯片TPU v5p,旨在大幅缩减训练大语言模型时间投入。

无论是大厂自研的AI芯片,还是像Groq LPU这样的专用芯片,都是为了优化特定AI计算任务的性能和成本效率,同时减少对英伟达等外部供应商的依赖。

作为GPU的一个重要补充,专用芯片让面对紧缺昂贵的GPU芯片的企业有了一个新的选择。

AI芯片聚焦推理

随着AI大模型的快速发展,尤其是Sora以及即将推出的GPT-5,都需要更强大高效的算力。但GPU在推理方面的不够高效,已经影响到了大模型业务的发展。

从产业发展趋势来看,AI算力负载大概率将逐步从训练全面向推理端迁移。

华尔街大行摩根士丹利在2024年十大投资策略主题中指出,随着消费类边缘设备在数据处理、存储端和电池续航方面的大幅改进,2024年将有更多催化剂促使边缘AI这一细分领域迎头赶上,AI行业的发展重点也将从“训练”全面转向“推理”。

高通CEO Amon也指出,芯片制造商们的主要战场不久后将由“训练”转向“推理”。

Amon在采访时表示:“随着AI大模型变得更精简、能够在设备上运行并专注于推理任务,芯片制造商的主要市场将转向‘推理’,即模型应用。预计数据中心也将对专门用于已训练模型推理任务的处理器产生兴趣,一切都将助力推理市场规模超越训练市场。”

在最新的财报电话会上,英伟达CFO Colette Kress表示,大模型的推理场景已经占据英伟达数据中心40%的营收比例。这也是判断大模型行业落地前景的重要信号。

事实上,巨头们的一举一动也在印证这一趋势的到来。

据路透社报道,Meta将推新款自研AI推理芯片Artemis。预计Meta可于年内完成该芯片在自有数据中心的部署,与英伟达GPU协同提供算力。

而英伟达也通过强化推理能力,巩固自身通用GPU市占率。

在下一代芯片H200中,英伟达在H100的基础上将存储器HBM进行了一次升级,为的也是提升芯片在推理环节中的效率。

不仅如此,随着各大科技巨头、芯片设计独角兽企业都在研发更具效率、部分替代GPU的芯片,英伟达也意识到这一点,建立起了定制芯片的业务部门。

总的来说,以现在AI芯片供不应求的现状,GPU的增长暂时还不会放缓。但随着AI发展趋势的快速变化,英伟达不可能是永远的王者,而Groq也绝对不是唯一的挑战者。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
21天前
|
机器学习/深度学习 人工智能 语音技术
Fugatto:英伟达推出的多功能AI音频生成模型
Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。
65 1
Fugatto:英伟达推出的多功能AI音频生成模型
|
18天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
61 12
|
10天前
|
人工智能 搜索推荐 安全
数百名研发人员用通义灵码,33%新增代码由AI生成,信也科技研发模式焕新升级
目前,信也科技数百名研发人员正在使用通义灵码,周活跃用户占比70%,新增代码中有33%由通义灵码编写,整体研发效率提升了11%,真正实现了数百研发人员开发效能的全面提升。
|
20天前
|
人工智能 自然语言处理 知识图谱
英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快
英伟达提出nGPT(Normalized Transformer),通过单位范数归一化和超球面上的表示学习,显著提升了Transformer模型的训练速度和性能。实验显示,nGPT在处理4k长度序列时,训练速度比传统Transformer快10倍,且在多个下游任务中表现出色。论文地址:https://arxiv.org/pdf/2410.01131
36 12
|
15天前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
1月前
|
人工智能 Cloud Native 算法
|
1月前
|
人工智能 算法 新制造
走进北京科技大学,通义灵码与企业高校共筑 AI 创意课堂
近日,通义灵码有幸参与到一场由伊利集团主办的 AIGC 生态创新大赛路演舞台,与高校专家、企业代表、青年学子共同探讨 AIGC 创意应用,交流企业在数智领域转型、青年开发者科技创新的思路和落地实践。
|
21天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】芯片的编程体系
本文探讨了SIMD与SIMT的区别及联系,分析了SIMT与CUDA编程的关系,深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构,强调了理解AI芯片编程体系的重要性,旨在帮助开发者更高效地利用AI芯片算力,促进生态繁荣。
46 0
|
21天前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
38 0
|
2月前
|
人工智能 机器人 云计算
【通义】AI视界|OpenAI据称已计划联手博通和台积电共同打造自研芯片
本文由【通义】自动生成,涵盖苹果iOS 18.2将集成ChatGPT、OpenAI联手博通和台积电自研芯片、微软指责谷歌发起影子运动、英伟达高管预测AI将呈现人类形态、OpenAI董事会主席的初创公司估值达45亿美元等热点资讯。更多精彩内容,请访问通通知道。