【AI系统】GPU 架构回顾(从2018年-2024年)

简介: 2018年发布的Turing图灵架构,采用12nm工艺,包含18.6亿个晶体管,大幅提升了PC游戏、专业图形应用及深度学习推理的效率与性能。Turing引入了RT Core和Tensor Core,分别用于实时光线追踪和加速深度学习计算,支持GDDR6内存,显著提升了数据传输速率和效率。此外,Turing架构还支持NVLink 2.0,增强了多GPU协同工作的能力,适用于复杂的图形渲染和深度学习任务。

Turing 架构

2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的专门执行单元,深度学习计算核心)、CUDA 和 CuDNN 库的不断改进,更好地应用于深度学习推理。RT Core(Ray Tracing Core)提供实时的光线跟踪渲染,包括具有物理上精确的投影、反射和折射,更逼真的渲染物体和环境。支持 GDDR6 内存,与 GDDR5 内存相比,拥有 14 Gbps 传输速率,实现了 20% 的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽,使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。

NVIDIA Turing TU102 GPU Die

TU102 GPU 包括 6 个图形处理集群(GPCs)、36 个纹理处理集群(TPCs)和 72 个流式多处理器(SMs)。每个 GPC 包括一个专用光栅引擎和 6 个 TPC,每个 TPC 包括两个 SMs。每个 SM 包含 64 个 CUDA 核心、8 个张量核心、一个 256 KB 的寄存器文件、4 个纹理单元和 96 KB 的 L1/共享内存,这些内存可以根据计算或图形工作负载配置为不同的容量。因此总共有 4608 个 CUDA 核心、72 个 RT 核心、576 个张量核心、288 纹理单元和 12 个 32 位 GDDR6 内存控制器(总共 384 位)。

Turing 图灵架构

艾伦·图灵(Alan Turing)是 20 世纪英国数学家、逻辑学家和密码学家,被誉为计算机科学之父。他在计算理论和人工智能领域做出了开创性的工作,对现代计算机科学的发展产生了深远影响。主要成就包括:

  1. 发展了图灵机概念,这是一种抽象的数学模型,被认为是计算机的理论基础,为计算机科学奠定了基础。

  2. 在第二次世界大战期间,他领导了英国破解德国恩尼格玛密码的团队,对盟军在战争中的胜利做出了重要贡献。

  3. 提出了图灵测试,用来衡量机器是否具有智能,为人工智能领域的发展提供了重要思想。

  4. 在逻辑学领域,他提出了图灵判定问题,对计算机可解性和不可解性做出了重要贡献。

随着神经网络模型的量化部署逐渐成熟,Turing 架构中的 Tensor Core(张量核心)增加了对 INT8/INT4/Binary 的支持,加速神经网络训练和推理函数的矩阵乘法核心。一个 TU102 GPU 包含 576 个张量核心,每个张量核心可以使用 FP16 输入在每个时钟执行多达 64 个浮点融合乘法加法(FMA)操作。SM 中 8 个张量核心在每个时钟中总共执行 512 次 FP16 的乘法和累积运算,或者在每个时钟执行 1024 次 FP 运算,新的 INT8 精度模式以两倍的速率工作,即每个时钟进行 2048 个整数运算。Tensor Core 用于加速基于 AI 的英伟达 NGX 功能,增强图形、渲染和其它类型的客户端应用程序,包括 DLSS(深度学习超级采样)、 AI 绘画、AI Super Rez(图像/视频超分辨率)和 AI Slow-Mo(视频流插帧)。

每个 SMs 分别有 64 个 FP32 核和 64 个 INT32 核,还包括 8 个混合精度的张量核(Tensor Core),每个 SM 被分为四个块,每个块包括一个新的 L0 指令缓存和一个 64 KB 的寄存器文件。四个块共享一个 96 KB L1 数据缓存/共享内存。传统的图形工作负载将 96 KB 的 L1/共享内存划分为 64 KB 的专用图形着色器 RAM 和 32 KB 的用于纹理缓存和寄存器文件溢出区域。计算工作负载可以将 96 KB 划分为 32 KB 共享内存和 64 KB L1 缓存,或者 64 KB 共享内存和 32 KB L1 缓存。

Turing Tensor Core & RT Core

RT Core 主要用于三角形与光线求交点,并通过 BVH(Bounding Volume Hierarchy)结构加速三角形的遍历,由于布置在 block 之外,相对于普通 ALU 计算来说是异步的,包括两个部分,一部分检测碰撞盒来剔除面片,另一部分做真正的相交测试。RT Core 的使用,使 SM 在很大程度上可以用来做图形计算之外的工作。

Bounding Volume Hierarchy(BVH)结构

光线追踪(Ray Tracing)中的 Bounding Volume Hierarchy(BVH)结构是一种用于加速光线追踪算法的数据结构。BVH 通过将场景中的物体分层组织成包围盒(Bounding Volume)的层次结构,从而减少光线与物体的相交测试次数,提高光线追踪的效率。

在 BVH 结构中,每个节点都代表一个包围盒,该包围盒可以包含多个物体或其他子包围盒。通过递归地构建 BVH 树,可以将场景中的物体分层组织成一个高效的数据结构,以便快速地确定光线与哪些物体相交,从而减少需要测试的物体数量,提高光线追踪的效率。

当增加 RT Core 之后实现硬件光线追踪,当 RTX 光线追踪技术打开时场景中人物和光线更加逼真,火焰可以在车身上清晰的看到。虽然光线追踪可以产生比栅格化更真实的图像,但是计算密集型使得混合渲染是更优的技术路线,光线追踪用在比栅格化更有效的地方,如渲染反射、折射和阴影。光线追踪可以运行在单个 Quadro RTX 6000 或 GeForce RTX 2080 Ti GPU 上,渲染质量几乎等同于电影实拍效果。

RT Core 效果对比

除了为高端游戏和专业图形带来革命性的新功能外,Turing 还提供了多精度计算,随着英伟达深度学习平台的持续推进,如 TensorRT 5.0 和 CUDA 10 技术的进步,基于英伟达 GPU 的推理解决方案显著降低了数据中心的成本、规模和功耗。

Ampere 架构

2020 年 Ampere 安培架构发布,Ampere 架构主要有以下特性:

1)超过 540 亿个晶体管,使其成为 2020 年世界上最大的 7 nm 处理器(英伟达 A100);

2)提出 Tensor Core3.0,新增 TF32(TensorFloat-32)包括针对 AI 的扩展,可使 FP32 精度的 AI 性能提高 20 倍;

3)多实例 GPU(Multi-Instance GPU,MIG)将单个 A100 GPU 划分为多达 7 个独立的 GPU,为不同任务提供不同算力,为云服务器厂商提供更好的算力切分方案;

4)提出 NVLink3.0 和 NV-Switch,NV-Switch 可以将多台机器进行互联,将 GPU 高速连接的速度加倍,可在服务器中提供有效的性能扩展;

5)利用 AI 数学计算中固有的稀疏特性将性能提升一倍。以上改进使 Ampere 成为新一代数据中心和云计算 GPU 架构,可用于 AI 和高性能计算场景。

04History21.png

安德烈-玛丽·安培(André-Marie Ampère)是 19 世纪法国物理学家和数学家,被誉为电磁学之父。他对电流和磁场之间的相互作用进行了深入研究,提出了安培定律,对电磁理论的发展做出了重要贡献。主要成就包括:

  1. 提出了安培定律,描述了电流元素之间的相互作用,为电磁感应和电磁场的研究奠定了基础。

  2. 发展了电动力学理论,将电流和磁场的关系系统化,并提出了电流环的磁场理论。

  3. 研究了电磁感应现象,揭示了磁场和电场之间的关系,为后来法拉第的电磁感应定律的提出奠定了基础。

  4. 对电磁学和热力学等领域都有重要贡献,被认为是 19 世纪最杰出的物理学家之一。

英伟达 A100 GPU 包括 8 个 GPC,每个 GPC 包含 8 个 TPC,每个 TPC 包含 2S 个 SMs/,每个 GPC 包含 16 个 SM/GPC,整个 GPU 拥有 128 个 SMs。每个 SM 有 64 个 FP32 CUDA 核心,总共 8192 FP32 CUDA 核心。Tensor Core3.0,总共 512 个。6 个 HBM2 存储栈,12 个 512 位内存控制器,内存可达到 40 GB。第三代 NVLink,GPU 和服务器双向带宽为 4.8 TB/s,GPU 之间的互联速度为 600 GB/s。A100 SM 拥有 192 KB 共享内存和 L1 数据缓存,比 V100 SM 大 1.5 倍。

Ampere 安培架构

A100 Tensor Core3.0 增强操作数共享并提高计算效率,引入了 TF32、BF16 和 FP64 数据类型的支持。平时训练模型的过程中使用更多的是 FP32 和 FP16,TF32 在指数位有 8 位,FP16 在指数为有 5 位,因此 FP32 的位宽比 FP16 更多,小数位决定精度,FP32 在小数位有 23 位,FP16 只有 10 位,在 AI 训练的过程中很多时候 FP16 是够用的,但是动态范围会有限制,因此提出 TF32,指数位保持和 FP32 相同,小数位和 FP16 保持相同,BF16 的指数位和 FP32、TF32 相同,但是小数位少了三位。数百个张量核并行运行,大幅提高吞吐量和计算效率。

Ampere 架构 TF32、BF16 和 FP64

A100 FP32 FFMA,INT8、INT4 和 Binary 分别提高了 32x、64x 和 256x,与 Volta 架构一样,自动混合精度(AMP)允许用户使用与 FP16 相结合的混合精度来进行 AI 训练,使用 AMP 之后 A100 提供了比 TF32 快 2 倍的张量核心性能。

Ampere 架构 A100 支持精度

Tensor Core 除了执行乘法和加法操作之外还可以支持稀疏化结构矩阵(Sparse Tensor),实现细粒度的结构化稀疏,支持一个 2:4 的结构化稀疏矩阵与另一个稠密矩阵直接相乘。一种常见的方法是利用稀疏矩阵的结构特点,只对非零元素进行计算,从而减少计算量。一个训练得到的稠密矩阵在推理阶段经过剪枝之后会变成一个稀疏化矩阵,然后英伟达架构对矩阵进行压缩后变成一个稠密的数据矩阵和一个 indices,索引压缩过的数据方便检索记录,最后进行矩阵乘。

Ampere 架构稀疏化流程

A100 张量核心 GPU 可以被分为 7 个 GPU 实例并被不同任务使用,每个实例的处理器在整个内存系统中都有单独且相互隔离的路径,片上交叉端口、L2 缓存、内存控制器和 DRAM 地址总线都被唯一地分配给一个单独的实例,确保单个用户的工作负载可以在可预测的吞吐量和延迟下运行,同时具有相同的 L2 缓存分配和 DRAM 带宽,即使其他任务正在读写缓存或 DRAM 接口。用户可以将这些虚拟 GPU 实例当成真的 GPU 进行使用,为云计算厂商提供算力切分和多用户租赁服务。

Ampere 架构多实例分割虚拟 GPU

DGX A100 是英伟达专门构建的第三代 AI 系统,在单个系统中可以提供 5 PFLOPS(petaflop)性能,通过一种新的基础设施结构,彻底改变了企业数据中心,旨在将所有 AI 工作负载统一在一个新的通用平台和架构上。A100 以整机的形式出售,最上面是散热器,中间的 A100 芯片不再通过 PCIe 进行连接,而是直接封装在主板上,这样便于在同一个节点上进行模型并行,但是跨节点跨机器之间训练大模型时带宽就会成为整个大模型训练的瓶颈。内存高达 1TB 或者 2TB,可以直接将数据全部加载到 CPU 里面,然后再不断回传到 GPU 中,加速大模型训练。

A100 硬件规格

Hopper 架构

2022 年 Hopper 赫柏架构发布,英伟达 Grace Hopper Superchip 架构将英伟达 Hopper GPU 的突破性性能与英伟达 Grace CPU 的多功能性结合在一起,在单个超级芯片中与高带宽和内存一致的英伟达 NVLink Chip-2-Chip(C2C)互连,并且支持新的英伟达 NVLink 切换系统,CPU 和 GPU、GPU 和 GPU 之间通过 NVLink 进行连接,数据的传输速率高达 900 GB/s,解决了 CPU 和 GPU 之间数据的时延问题,跨机之间通过 PCIe5 进行连接。

04History28.png

Hopper 架构是第一个真正的异构加速平台,适用于高性能计算(HPC)和 AI 工作负载。英伟达 Grace CPU 和英伟达 Hopper GPU 实现英伟达 NVLink-C2C 互连,高达 900 GB/s 的总带宽的同时支持 CPU 内存寻址为 GPU 内存。NVLink4.0 连接多达 256 个英伟达 Grace Hopper 超级芯片,最高可达 150 TB 的 GPU 可寻址内存。

H100 参数
NVIDIA Grace CPU 72 个 Arm Neoverse V2 内核,每个内核 Armv9.0-A ISA 和 4 个 128 位 SIMD 单元
512 GB LPDDR5X 内存,提供高达 546 GB/s 的内存带宽
117MB 的 L3 缓存,内存带宽高达 3.2 TB/s
64 个 PCIe Gen5 通道
NVIDIA Hopper GPU 144 个第四代 Tensor Core、Transformer Engine、DPX 和 3 倍高 FP32 的 FP64 的 SM
96 GB HBM3 内存提供高达 3000 GB/s 的速度
60 MB 二级缓存
NVLink 4 和 PCIe 5
NVIDIA NVLink-C2C Grace CPU 和 Hopper GPU 之间硬件一致性互连
高达 900 GB/s 的总带宽、450 GB/s/dir
扩展 GPU 内存功能使 Hopper GPU 能够将所有 CPU 内存寻址为 GPU 内存。每个 Hopper CPU 可以在超级芯片内寻址多达 608 GB 内存
NVIDIA NVLink 切换系统 使用 NVLink 4 连接多达 256 个 NVIDIA Grace Hopper 超级芯片
每个连接 NVLink 的 Hopper GPU 都可以寻址网络中所有超级芯片的所有 HBM3 和 LPDDR5X 内存,最高可达 150 TB 的 GPU 可寻址内存

H100 一共有 8 组 GPC、66 组 TPC、132 组 SM,总计有 16896 个 CUDA 核心、528 个 Tensor 核心、50MB 二级缓存。显存为新一代 HBM3,容量 80 GB,位宽 5120-bit,带宽高达 3 TB/s。

Hopper 赫柏架构

(注意:上面的图是GH100的图,而不是H100的图)

格蕾丝·赫希贝尔·赫柏(Grace Hopper)是 20 世纪美国计算机科学家和海军军官,被誉为计算机编程先驱和软件工程的奠基人之一。在 1934 年获得了耶鲁大学数学博士学位,成为该校历史上第一位女性获得博士学位的人。在计算机领域做出了重要贡献,尤其在编程语言和软件开发方面有突出成就,被尊称为“软件工程之母”和“编程女王”。主要成就包括:

  1. 开发了第一个编译器,将高级语言翻译成机器码,这项创新大大简化了编程过程,为软件开发奠定了基础。

  2. 提出了 COBOL(通用商业导向语言)编程语言的概念和设计,这是一种面向商业应用的高级语言,对商业和金融领域的计算机化起到了重要作用。

  3. 在计算机科学教育和推广方面做出了杰出贡献,她致力于将计算机科学普及到更广泛的人群中,并激励了许多人进入这一领域。

  4. 作为美国海军的一名军官,她参与了多个计算机课程,包括 UNIVAC 和 Mark 系列计算机的开发,为军事和民用领域的计算机化做出了贡献。

具体到 SM 结构,Hopper 赫柏架构 FP32 Core 和 FP64 Core 两倍于 Ampere 架构,同时采用 Tensor Core4.0 使用新的 8 位浮点精度(FP8),可为万亿参数模型训练提供比 FP16 高 6 倍的性能。FP8 用于 Transformer 引擎,能够应用 FP8 和 FP16 的混合精度模式,大幅加速 Transformer 训练,同时兼顾准确性。FP8 还可大幅提升大型语言模型推理的速度,性能较 Ampere 提升高达 30 倍。新增 Tensor Memory Accelerator,专门针对张量进行数据传输,更好地加速大模型。

Hopper 赫柏架构 SM 硬件单元 Hopper 赫柏架构每个 Process Block 相比 Ampere 架构
4 个 Warp Scheduler,4 个 Dispatch Unit 1 个 Warp Scheduler,1 个 Dispatch Unit 相同
128 个 FP32 Core(4 * 32) 32 个 FP32 Core x2
64 个 INT32 Core(4 * 16) 16 个 INT32 Core 相同
64 个 FP64 Core(4 * 16) 16 个 FP32 Core x2
4 个 Tensor Core4.0(4 * 1) 1 个 Tensor Core Tensor Core3.0
32 个 LD/ST Unit(4 * 8) 8 个 LD/ST Unit 相同
16 个 SFU(4 * 4) 4 个 SFU 相同
Tensor Memory Accelerator 新增

Hopper 赫柏架构 SM

NVIDIA Quantum-2 Infiniband 是英伟达推出的一种高性能互连技术,用于数据中心和高性能计算环境中的互连网络,具有高性能、低延迟、高可靠性和支持异构计算等特点,主要用于连接计算节点、存储系统和其他关键设备,以实现高速数据传输和低延迟通信。

NVIDIA BlueField-3 DPU(Data Processing Unit)是一种数据处理单元,提供数据中心的网络、存储和安全加速功能。BlueField-3 DPU 结合了网络接口控制器(NIC)、存储控制器、加密引擎和智能加速器等功能于一体,为数据中心提供了高性能、低延迟的数据处理解决方案。

H100 异构系统

NVIDIA CUDA 平台针对 NVIDIA Grace CPU,NVIDIA Grace Hopper Superchip 和 NVIDIA NVLink Switch 系统进行了优化,使得 NVIDIA CUDA 发展成为一个全面、高效、高性能的加速计算平台,为开发人员在异构平台上加速应用程序提供了最佳的体验。

NVIDIA CUDA Platform and its ecosystem

基于 Hopper 架构,英伟达推出 NVIDIA H100 高性能计算加速器,旨在为各种规模的计算工作负载提供出色的性能和效率。在单服务器规模下,结合主流服务器使用 H100 加速卡可以提供强大的计算能力,加速各种计算密集型工作负载。在多服务器规模下,组成 GPU 集群的多块 H100 加速卡可以构建高性能计算集群,支持分布式计算和并行计算,提高整体计算效率。而在超级计算规模下,大量 H100 加速卡组成的超级计算集群可以处理极端规模的计算任务,支持复杂的科学计算和研究。

从单服务器到多服务器再到超级计算规模(Mainstream Servers to DGX to DGX SuperPOD),NVIDIA H100 在不同层次和规模下展现出色的计算性能和效率,满足各种计算需求和业务目标。企业可以根据自身需求和预算选择适合的 NVIDIA H100 解决方案,加速其计算任务和推动 AI 领域的发展。

H100-Mainstream Servers to DGX to DGX SuperPOD

Blackwell 架构

2024 年 3 月,英伟达发布 Blackwell 架构,专门用于处理数据中心规模的生成式 AI 工作流,能效是 Hopper 的 25 倍,新一代架构在以下方面做了创新:

  • 新型 AI 超级芯片:Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。

  • 第二代 Transformer 引擎:将定制的 Blackwell Tensor Core 技术与英伟达 TensorRT-LLM 和 NeMo 框架创新相结合,加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。

  • 第五代 NVLink:为了加速万亿参数和混合专家模型的性能,新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽,支持多达 576 个 GPU 间的无缝高速通信,适用于复杂大语言模型。

  • RAS 引擎:Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能恢复能力,以识别早期可能发生的潜在故障,从而更大限度地减少停机时间。

  • 安全 AI:内置英伟达机密计算技术,可通过基于硬件的强大安全性保护敏感数据和 AI 模型,使其免遭未经授权的访问。

  • 解压缩引擎:拥有解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问英伟达 Grace CPU 中大量内存的能力,可加速整个数据库查询工作流,从而在数据分析和数据科学方面实现更高性能。

英伟达 DPU CPU+GPU GPU

大卫·哈罗德·布莱克韦尔(David Harold Blackwell)是 20 世纪美国著名的数学家和统计学家,他在统计学领域做出了卓越的贡献,被誉为统计学的巨匠,第一个非裔美国人当选为美国国家科学院院士,也是第一个获得美国数学学会最高奖——Leroy P. Steele 奖章的非裔美国人。主要成就包括:

  1. 在贝叶斯统计学领域做出了开创性的工作,提出了许多重要的方法和理论,推动了贝叶斯分析在统计学中的发展。

  2. 在信息论方面的研究成果为该领域的发展做出了重要贡献,提供了许多重要的理论基础和方法。

英伟达 GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的片间互联,将两个英伟达 B200 Tensor Core GPU 与英伟达 Grace CPU 相连。在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型,需要 8000 个 Hopper 架构 GPU,15 兆瓦功率,Blackwell 架构只需要 2000 个 GPU,以及 1/4 的能源消耗。8 年时间,从 Pascal 架构到 Blackwell 架构,英伟达将 AI 计算性能提升了 1000 倍!

8 年时间 AI 计算性能提升了 1000 倍

英伟达 GB200 NVL72 集群以机架形式设计连接 36 个 GB200 超级芯片(36 个 Grace cpu 和 72 个 Blackwell GPU)。GB200 NVL72 是一款液冷、机架型 72 GPU NVLink,可以作为单个大规模 GPU,提供比上一代 HGX H100 实现 30 倍的实时万亿参数 LLM 推理,加速下一代 AI 和加速计算。

英伟达 GB200 NVL72 集群

GB200 NVL72 GB200 Grace Blackwell Superchip
Configuration 36 Grace CPU : 72 Blackwell GPUs 1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core2 1,440 PFLOPS 40 PFLOPS
FP8/FP6 Tensor Core2 720 PFLOPS 20 PFLOPS
INT8 Tensor Core2 720 POPS 20 POPS
FP16/BF16 Tensor Core2 360 PFLOPS 10 PFLOPS
TF32 Tensor Core2 180 PFLOPS 5 PFLOPS
FP64 Tensor Core 3,240 TFLOPS 90 TFLOPS
GPU Memory | Bandwidth Up to 13.5 TB HBM3e | 576 TB/s Up to 384 GB HBM3e | 16 TB/s
NVLink Bandwidth 130TB/s 3.6TB/s
CPU Core Count 2,592 Arm Neoverse V2 cores 72 Arm Neoverse V2 cores
CPU Memory | Bandwidth Up to 17 TB LPDDR5X | Up to 18.4 TB/s Up to 480GB LPDDR5X | Up to 512 GB/s
1. Preliminary specifications. May be subject to change. 1. With sparsity.

随着大模型(LLM)参数量增长对算力的需求,英伟达在存储带宽和内存方面不断创新,P100 上首次使用 HBM2,A100 使用 HBM2e,H100 使用 HBM3,H200 和 B100 使用 HBM3e。

英伟达为满足模型需要不断创新

英伟达 Blackwell HGX B200 和 HGX B100 在生成式 AI 、数据分析和高性能计算方面具有相同的突破性进展。HGX B200 是基于 8 个 B200 x86 平台,提供 144 petaFLOPs 的 AI 性能,每个 GPU 最高可配置 1000 瓦。HGX B100 是基于 8 个 B100 x86 平台,提供 112 petaFLOPs 的 AI 性能,每个 GPU 最高可配置为 700 瓦。

HGX B200 HGX B100
Blackwell GPUs 8 8
FP4 Tensor Core 144 PetaFLOPS 112 PetaFLOPS
FP8/FP6/INT872 72 PetaFLOPS 56 PetaFLOPS
Fast Memory Up to 1.5 TB Up to 1.5TB
Aggregate Memory Bandwidth Up to 64 TB/s Up to 64 TB/s
Aggregate NVLink Bandwidth 14.4 TB/s 14.4 TB/s
Per GPU Specifications
FP4 Tensor Core 18 petaFLOPS 14 petaFLOPS
FP8/FP6 Tensor Core 9 petaFLOPS 7 petaFLOPS
INT8 Tensor Core 9 petaOPS 7 petaOPS
FP16/BF16 Tensor Core 4.5 petaFLOPS 3.5 petaFLOPS
TF32 Tensor Core 2.2 petaFLOPS 1.8 petaFLOPS
FP64 Tensor Core 40 teraFLOPS 30 teraFLOPS
GPU memory | Bandwidth Up to 192 GB HBM3e | Up to 8 TB/s
Max thermal design power (TDP) 1,000W 700W
Interconnect NVLink: 1.8TB/s, PCIe Gen6: 256GB/s NVLink: 1.8TB/s, PCIe Gen6: 256GB/s
Server options NVIDIA HGX B200 partner and NVIDIA-Certified Systems with 8 GPUs NVIDIA HGX B100 partner and NVIDIA-Certified Systems with 8 GPUs
  • Preliminary specifications subject to change.
  • All petaFLOPS and petaOPS are with Sparsity except FP64 which is dense.

GPT-3 Inference Performance

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
3天前
|
人工智能 Linux iOS开发
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
197 100
|
7天前
|
人工智能
AI对话网站一键生成系统源码
可以添加进自己的工具箱,也可以嵌入自己博客的页面中,引流效果杠杠的,新拟态设计风格,有能力的大佬可以进行二开,仅提供学习,用户可输入网站名称、AI默认的开场白、AI头像昵称、AI网站中引流的你的网站等等内容,所有生成的网页全部保存到你的服务器上
53 27
AI对话网站一键生成系统源码
|
12天前
|
机器学习/深度学习 缓存 自然语言处理
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构
DeepSeekMoE是一种创新的大规模语言模型架构,融合了专家混合系统(MoE)、多头潜在注意力机制(MLA)和RMSNorm归一化。通过专家共享、动态路由和潜在变量缓存技术,DeepSeekMoE在保持性能的同时,将计算开销降低了40%,显著提升了训练和推理效率。该模型在语言建模、机器翻译和长文本处理等任务中表现出色,具备广泛的应用前景,特别是在计算资源受限的场景下。
274 29
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构
|
9天前
|
人工智能 JavaScript 安全
【01】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-需求改为思维导图-设计数据库-确定基础架构和设计-优雅草卓伊凡商业项目实战
【01】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-需求改为思维导图-设计数据库-确定基础架构和设计-优雅草卓伊凡商业项目实战
52 13
【01】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-需求改为思维导图-设计数据库-确定基础架构和设计-优雅草卓伊凡商业项目实战
|
21天前
|
存储 缓存 关系型数据库
社交软件红包技术解密(六):微信红包系统的存储层架构演进实践
微信红包本质是小额资金在用户帐户流转,有发、抢、拆三大步骤。在这个过程中对事务有高要求,所以订单最终要基于传统的RDBMS,这方面是它的强项,最终订单的存储使用互联网行业最通用的MySQL数据库。支持事务、成熟稳定,我们的团队在MySQL上有长期技术积累。但是传统数据库的扩展性有局限,需要通过架构解决。
60 18
|
19天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
112 11
|
27天前
|
人工智能 自然语言处理 数据可视化
校企合作|TsingtaoAI携手潍坊学院,共建AI驱动的党建信息化系统
TsingtaoAI与潍坊学院近日达成合作,正式签署《人工智能党建信息化系统开发》技术开发合同,计划在未来两年内联合开发一套集党员教育、党务管理、党建活动智能化以及数据可视化于一体的智能党建系统。本次合作将充分结合TsingtaoAI在AI大模型领域的技术优势和潍坊学院的学术资源,为推动党建工作的数字化、智能化和高效化注入新的动力。
42 10
|
23天前
|
机器学习/深度学习 存储 人工智能
AI实践:智能工单系统的技术逻辑与应用
智能工单系统是企业服务管理的核心工具,通过多渠道接入、自然语言处理等技术,实现工单自动生成、分类和分配。它优化了客户服务流程,提高了效率与透明度,减少了运营成本,提升了客户满意度。系统还依托知识库和机器学习,持续改进处理策略,助力企业在竞争中脱颖而出。
78 5
|
29天前
|
存储 文件存储 对象存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
1月前
|
消息中间件 监控 小程序
电竞陪玩系统架构优化设计,陪玩app如何提升系统稳定性,陪玩小程序平台的测试与监控
电竞陪玩系统架构涵盖前端(React/Vue)、后端(Spring Boot/php)、数据库(MySQL/MongoDB)、实时通信(WebSocket)及其他组件(Redis、RabbitMQ、Nginx)。通过模块化设计、微服务架构和云计算技术优化,提升系统性能与可靠性。同时,加强全面测试、实时监控及故障管理,确保系统稳定运行。

热门文章

最新文章