【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。

> 「这才是我理想中的 GPU。」—— 黄仁勋。

「这不是演唱会。你们是来参加开发者大会的!」当黄仁勋走上舞台时,现场爆发出热烈的掌声。

就在今晨四点,位于加州圣荷西的英伟达公司,全球市值排名第三的科技巨头,举办了一年一度的GTC大会。

![img](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/b523f9fa42b0422eae7d63ef0c9db22e~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=847&h=475&s=174757&e=png&b=040810)

今年的GTC大会之所以引人关注,不仅是因为生成式AI技术的突破,同时英伟达的市值也有了显著增长。伴随着的是算力市场的火热,不仅硬件竞争激烈,软件竞争同样如火如荼。

英伟达推出的全新产品再次将AI芯片的性能标准推向了前所未有的高度。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/c7d7ec99502e4472b6b38a16ed526bdf~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=845&h=639&s=217747&e=png&b=020204)

「通用计算的时代已经过去,现在,我们需求更庞大的模型,因此也需要更强大的GPU,甚至需要将多个GPU叠加使用。”黄仁勋表示,“这样做并非为了降低成本,而是为了拓宽技术的边界。」

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/42eb28c4a0224bbdaaea4148d39866f1~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=850&h=457&s=192765&e=png&b=020106)

黄仁勋还提到,目前大型模型的参数量增长呈现出指数级的速度,OpenAI开发的最大型号已经达到了1.8T参数,需要处理上百亿的token。哪怕是拥有PetaFLOP级性能的GPU,想要训练这样庞大的模型也需要千年的时间。这也意味着GPT-4的参数量就达到了令人难以置信的1.8万亿。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/34fd0d54f712422799b9d76ced6b0c1b~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=855&h=464&s=125525&e=png&b=fdfdfd)

于是,为了帮助全世界构建更大型的AI,英伟达带来了全新的GPU —— Blackwell。黄仁勋直白地说:「这是块非常非常大的 GPU!」

Blackwell GPU的发布标志着,近八年来,AI的算力增长了一千倍。网友们对此惊叹不已:Nvidia吞噬世界!

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e6fe73530a2641bbb2a2e40ec25d1c00~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=846&h=469&s=199672&e=png&b=040404)

**这块拥有2080亿个晶体管的Blackwell GPU**

**让竞争对手不知所措,后继乏力**

尽管全球科技公司还在争抢H100芯片,但英伟达已经推出了下一代产品。

今天的GTC大会上,Blackwell平台正式亮相。随着Blackwell的推出,构建和运行数万亿参数的实时生成式AI大型语言模型的成本和能耗将降至原来的1/25。

Blackwell之名,是为了纪念首位入选美国国家科学院的非裔美国数学家、博弈论学者David Harold Blackwell。新平台继承了Hopper GPU架构,为加速计算设立了新的标杆。预计Blackwell架构的GPU将在今年晚些时候开始发货。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/898b8912399149f286bf2a69889c16fe~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=851&h=622&s=1215150&e=png&b=60777d)

*David Harold Blackwell。图源 britannica*

作为英伟达首款采用MCM(多芯片封装)设计的GPU,Blackwell在同一芯片封装中集成了两颗GPU。

在发布会上,黄仁勋举着Blackwell(右手)对比了一下与Hopper (左手)GH100 GPU的体积大小。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/09a7502f00034b61b9eaf923d20987c9~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=722&h=549&s=538791&e=png&b=191419)

*It’s OK, Hopper.*

他宣称,Blackwell将成为世界上最强大的芯片。这款GPU采用了先进的双Reticle台积电4NP(4N 工艺的改进版本)工艺,拥有2080亿晶体管,两个小芯片之间互联速度可达10TBps,大幅提升了处理性能。

重要的是,此设计不存在内存局部性问题或缓存问题,CUDA视其为单块GPU。

配备了高速度8Gbps、高容量192GB的HBM3E内存,AI算力可达到20 petaflops(FP4 精度),相比之下,上一代的H100 GPU仅有4 petaflops的性能。

这可能是世界上第一个如此高效整合的多die芯片平台,随着制造工艺升级速度的放缓,这也许是提升算力的唯一可行路径。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/823282b2d60845e5b251e83c6b1094c4~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=845&h=476&s=316889&e=png&b=000001)

Blackwell不仅仅是芯片的名称,它也代表整个平台。分别有B200和GB200两个系列,后者由1个Grace CPU和2个B200 GPU组成。

其中,B200 GPU通过2080亿晶体管实现了20 petaflops的FP4吞吐量。GB200则通过900GB/秒的高效芯片间连接,把两个B200 GPU与一个Grace CPU连接起来。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/2b22e3264a0a4323bfa4b1a200be93b2~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=842&h=576&s=315798&e=png&b=0a0a0a)

*GB200 架构,包含两个 GPU 和一个 CPU。*

相比H100 Tensor Core GPU,GB200能够为大型语言模型(LLM)的推理工作提供高达30倍的性能提升,同时大大降低了成本和能耗。

「大家都以为我们是在制造GPU,但现在的GPU已经不再是以前那样了,」黄仁勋说。「我现在一手拿着 100 亿(晶体管),一手拿着 50 亿(晶体管)。」

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/230871712db8427eb1283113ffaaaa66~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=722&h=547&s=311790&e=png&b=030305)

英伟达已经不再单独卖显卡,而是将其作为整套系统出售,因为只有使用英伟达自家的组件,才能达到最佳效能。「如今,我们出售的是7000多个部件、重达3000磅的GPU系统。」

基于Blackwell的AI计算平台,将以DGX GB200服务器的形式提供给客户,整合了36颗NVIDIA Grace CPU和72个Blackwell GPU。这些超级芯片通过第五代NVLink成为了一个超级计算集群。

更进一步,基于Grace和Blackwell架构的DGX SuperPOD由8个或更多的DGX GB200系统组成。通过NVIDIA Quantum InfiniBand网络,这些系统能扩展到成千上万个GB200芯片。用户可以连接576块GPU,从而训练下一代AI模型。

比较一下性能升级,以前Hopper需要8000块GPU训练GPT-MoE-1.8T花费90天,而现在GB2000只需要2000块,且能耗仅为之前的四分之一。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/2919b9e632ed45f0a3049aec7315e5b2~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=846&h=467&s=81929&e=png&b=010101)

在生成式AI的下一个阶段,即多模态和视频领域,需要进行更大规模的训练。Blackwell为此带来了更多的可能性。

对于大型语言模型的推理,这是一个持续的挑战,不适合单个GPU处理。在拥有1750亿参数的GPT-3基准测试中,GB200的性能是H100的7倍,而训练速度则是原来的4倍。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/46d69a70530e40f6a72e19083a74707b~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=846&h=466&s=105743&e=png&b=000000)

如今,大模型推理的速度比前一代快了30倍。黄仁勋展示了一张性能对比图,其中蓝色代表Hopper。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/71386241134d4c34975dc7813d7f7fc0~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=846&h=482&s=65923&e=png&b=000000)

「DGX超级计算机是推动AI行业变革的工厂。新一代的DGX SuperPOD集计算加速、网络以及软件发展的最新成果于一身,能够帮助每家公司、各个行业和各国政府改进并制造自己的AI。」黄仁勋说道。

随着Blackwell的推出,我们距离生成式AI应用的普及又更近了一步。

**两大技术革新**

**得益于第二代 Transformer 引擎和第五代 NVLink的联合革新**

30倍的AI算力是怎样实现的?除了采用先进的制造技术,将两块芯片结合使用外,Blackwell的关键在于它的第二代Transformer引擎,它支持FP4和FP6,使得计算能力、带宽以及模型的规模都得以加倍。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/657bfbff8d26480f9b4cd195f3ba7d73~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=844&h=380&s=118180&e=png&b=020202)

得益于新引入的微张量(micro-tensor)扩展支持和集成到TensorRT-LLM以及NeMo Megatron框架中的先进动态范围管理算法,Blackwell采用4-bit浮点数进行AI推理,使得它的算力和模型规模都提高了一倍。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/3610ec0aaa964c14b0e6c9ef7937daa8~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=849&h=462&s=196980&e=png&b=040404)

而当大量这样的GPU互连时,下一代NVLink交换机成为了一个突破性的创新。它可以让576个GPU进行互通,双向带宽达到每秒1.8TB。

英伟达表示,集群系统以前60%的时间都在处理GPU间的通信,现在,新的NVLink Switch Chip让所有芯片高速互联,没有任何瓶颈。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/0307c08805d04768bb4a70260bcd5cac~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=846&h=432&s=171614&e=png&b=010101)

这样,DGX GB200 NVL72基本上可以作为一个超级GPU来看待。它的FP8训练吞吐量高达720 PFLOPS,FP4推理吞吐量为1.44 ExaFLOPS,多节点All-to-All通信速度为130TB每秒,多节点All-Reduce通信速度为260TB每秒。

在具体架构上,DGX GB200 NVL72有18个GB200节点机架,每个节点都配备2个GB200 GPU,还有9个NVSwitch机架,这为GB200 NVL提供了720 PFLOPS的FP8吞吐量,以及ExaFLOPS精度的FP4。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/fbcb2b9b14e34e6695e1f1c2e9adabdd~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=847&h=472&s=324000&e=png&b=010000)

所以今年的DGX形象焕然一新,有着5000条NVLink电缆,总长2英里,这些纯铜导线取代了昂贵的光纤收发器,节约了20kW的计算成本。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/781de0b23a2c4e36a3812fee2442ad5a~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=844&h=477&s=429820&e=png&b=0e0e0e)

由于功耗过大,它还需要液冷来散热,它的重量高达3000磅(约1361公斤)。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/559f146686b4445fa62899f1bfbd2619~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=842&h=473&s=262434&e=png&b=000001)

2016年,黄仁勋亲手将第一台DGX系统交给OpenAI,现在,这里的GB200算力以Exaflop为单位。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/d3bdbaa88b0f4b2ba543af78a2823986~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=845&h=465&s=335232&e=png&b=010000)

在英伟达所定义的新摩尔定律下,算力提升的速度不仅没有放缓,反而加快了。

**构建生态,入场具身智能**

而在构建生态系统方面,英伟达也通过生成式AI技术,在元宇宙、工业数字孪生技术、以及机器人训练方面进行了扩展。

英伟达正在把它的Omniverse企业技术带入苹果生态中,使得开发者们能够通过Vision Pro工具在AR/VR环境中利用Omniverse工具。在GTC大会上,英伟达展示了设计师是如何使用Vision Pro虚拟地配置汽车,然后进入其中进行体验。通过Omniverse Cloud API,还可以将图像直接流传输至Vision Pro。

在机器人技术最前沿,英伟达公布了人形机器人项目GR00T。

在大会的主题演讲上,黄仁勋展示了GR00T项目推动的人形机器人是如何执行各类复杂任务的,这些机器人来自著名企业如Agility Robotics、Apptronik、傅利叶智能以及宇树科技,体现了人形机器人技术的前沿成就。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/992f73a7cfce4953bb1bf2d4f1c6306e~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=845&h=458&s=349684&e=png&b=070608)

GR00T项目是基于英伟达的Isaac机器人平台衍生发展的,其采用了全新的通用基础模型。通过这一平台,人形机器人能够接收文本、语音、视频甚至是现场演示的输入,并处理这些数据以完成特定的动作。这些机器人具备了理解自然语言和模拟人类行为的能力,还能在现实环境中自如地导航和互动。

更进一步,英伟达还开发了一款名为Jetson Thor的高级计算芯片,这是一种专为机器人设计的“大脑”,有能力执行复杂任务,并利用Transformer引擎管理众多传感器。

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/7ef35cd047574b51ba2247eab9820d56~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=843&h=464&s=591604&e=png&b=b1b5b3)

人形机器人领域最近活跃度大增。举例来说,英伟达的大客户OpenAI,就在不断地运用其AI模型为一家名叫Figure的初创企业的人形机器人提供智能支持。

现在,随着英伟达把GR00T摆在了其技术展示的窗口位置,黄仁勋对未来机器人技术的发展充满期待。「ChatGPT时代的机器人可能即将来临。」

![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/a527d99d76c94d2eb2ec0d479c560a1a~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=716&h=543&s=268265&e=png&b=060407)

这是不是意味着我们距离拥有智能会对话、理解并行动的机器人仅一步之遥?英伟达的这一系列革新技术可能很快就会将这一愿景变为现实。

关于Figure的文章我也有写[【2024】当ChatGPT拥有了身体,并且与人类并且全面对话并学习,你还感觉AI与你很远吗?](https://sorachatgpt.github.io/gpt-figure01/)

,感谢大家阅读。

如果想要注册一键ChatGPT账号[ChatGPT注册太繁琐?教你一键注册官方GPT账号!](https://sorachatgpt.github.io/gpt-register-account/),开通ChatGPT4.0可以参考[【容易上手】WildCard通俗易懂版 WildCard不知道如何开通?如何用优惠价购买WildCard订阅国外服务?](https://sorachatgpt.github.io/gpt-upgrade-four/)

*参考文章:*

*[【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍](https://sorachatgpt.github.io/nvidia-world)*

*参考链接:*

*<https://www.theverge.com/2024/3/18/24105157/nvidia-blackwell-gpu-b200-ai>*

*<https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing>*

*<https://venturebeat.com/ai/nvidia-unveils-next-gen-blackwell-gpus-with-25x-lower-costs-and-energy-consumption/>*

*<https://venturebeat.com/ai/nvidia-shows-off-project-gr00t-a-multimodal-ai-to-power-humanoids-of-the-future/>*

*[https://www.nextplatform.com/2024/03/18/with-blackwell-gpus-ai-gets-cheaper-and-easier-competing-](https://www.nextplatform.com/2024/03/18/with-blackwell-gpus-ai-gets-cheaper-and-easier-competing-with-nvidia-gets-harder/)*

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1月前
|
人工智能 前端开发 编译器
【AI系统】LLVM 架构设计和原理
本文介绍了LLVM的诞生背景及其与GCC的区别,重点阐述了LLVM的架构特点,包括其组件独立性、中间表示(IR)的优势及整体架构。通过Clang+LLVM的实际编译案例,展示了从C代码到可执行文件的全过程,突显了LLVM在编译器领域的创新与优势。
84 3
|
2天前
|
机器学习/深度学习 计算机视觉
Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT
北京大学和华为研究人员提出U-shaped Diffusion Transformers(U-DiTs),重新审视U-Net架构在扩散模型中的潜力。通过引入Token Downsampling方法,U-DiTs在ImageNet 256x256和512x512生成任务中显著提升性能并降低计算成本。实验表明,U-DiT模型不仅超越了DiT模型的性能,在计算效率上也更具优势。论文地址:https://arxiv.org/pdf/2405.02730
54 43
|
3天前
|
人工智能 文字识别 异构计算
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
NVIDIA-Ingest 是英伟达开源的智能文档提取工具,支持 PDF、Word、PPT 等多种格式,提供并行处理和 GPU 加速,适用于企业内容管理和生成式应用。
44 18
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
|
16天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
1月前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】Kernel 层架构
推理引擎的Kernel层负责执行底层数学运算,如矩阵乘法、卷积等,直接影响推理速度与效率。它与Runtime层紧密配合,通过算法优化、内存布局调整、汇编优化及调度优化等手段,实现高性能计算。Kernel层针对不同硬件(如CPU、GPU)进行特定优化,支持NEON、AVX、CUDA等技术,确保在多种平台上高效运行。
93 32
|
24天前
|
人工智能 数据挖掘 BI
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世
在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。
71 12
|
1月前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
62 4
【AI系统】计算图优化架构
|
26天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
1月前
|
存储 人工智能 监控
【AI系统】推理系统架构
本文深入探讨了AI推理系统架构,特别是以NVIDIA Triton Inference Server为核心,涵盖推理、部署、服务化三大环节。Triton通过高性能、可扩展、多框架支持等特点,提供了一站式的模型服务解决方案。文章还介绍了模型预编排、推理引擎、返回与监控等功能,以及自定义Backend开发和模型生命周期管理的最佳实践,如金丝雀发布和回滚策略,旨在帮助构建高效、可靠的AI应用。
129 15
|
1月前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
98 12