CUDA编程模型都改了!英伟达架构师团队撰文详解:Hopper为啥这么牛?

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: CUDA编程模型都改了!英伟达架构师团队撰文详解:Hopper为啥这么牛?
【新智元导读】最近老黄掏出的显卡核弹Hopper H100可谓是风头无两,性能全面碾压老前辈。但除了800亿晶体管,Hopper架构也是完全重新设计的,一起看看架构里面还有啥细节?


在英伟达GTC 2022大会上,老黄更新了服役近两年的安培微架构(Ampere),推出Hopper架构,并抛出一块专为超算设计、包含800亿个晶体管的显卡Hopper H100,比老前辈A100显卡的540亿晶体管还要高出不少。

 

但光看名字和参数还不够,Hopper到底牛在哪?

 

最近英伟达的架构开发师们发布了一篇博客,深入讲解和分析了Hopper架构。文章作者包括英伟达首席GPU架构师Michael Andersch,GPU架构组杰出工程师Greg Palmer和Ronny Krashinsky,英伟达高级技术营销总监Nick Stam,高级开发技术工程师Vishal Mehta等核心开发成员。

 

 

Hopper牛在哪?


Hopper架构的名字来自Grace Hopper女士,她被誉为计算机软件工程第一夫人、编译语言COBOL之母,她是耶鲁大学第一位数学女博士、世界上第三位程序员、全球首个编译器的发明者,也是第一位发现「bug」的人。


 

基于Hopper架构的英伟达Hopper H100张量核心GPU已经是第九代数据中心GPU了,相比上一代安培架构的A100 GPU,Hopper架构明显强悍了很多,不仅晶体管数量有明显提升,制作工艺也从7纳米提升到4纳米,为大规模AI和HPC提供了一个数量级的性能飞跃。

 

 

同时H100继承了A100的主要设计重点,提升了对AI和HPC工作负载的扩展能力,并在架构效率方面进行了大幅改进。

 

 

对于当今的主流人工智能和高性能计算模型,带有InfiniBand互连的H100可提供比A100强30倍的性能。

 

并且新的NVLink Switch System在针对一些大型计算工作负载任务,比如需要在多个GPU加速节点上进行模型并行化时,能够通过互联调整负载,可以再次提高性能。在某些情况下,性能能够在使用InfiniBand的H100基础上再增加两倍。

 

 

可以说H100 GPU专为高性能计算和超大规模AI模型加速而生,AI模型的推理速度少说也能提升10倍。

 

Hopper芯片利用了Arm架构的灵活性,是一个完全重新设计、专为加速计算而设计的CPU和服务器架构。H100能够与英伟达Grace CPU搭配,借助超快英伟达chip-to-chip互联,可以提供高达900GB/s的总带宽,比PCIe Gen5还要快7倍。

 

在TB级数据的高性能计算下,和世界上最快的服务器相比,新设计能够提升10倍性能和30倍的总带宽。

 

 

开发人员总结了一个长长的H100 GPU关键新特性列表。

 

首先H100有一个新的流式多处理器(SM, streaming multiprocessor),性能和效率都有所提升。

 

 

新的第四代张量核心与A100相比,chip-to-chip的性能提升6倍,速度提升主要来自更快的SM,更多的SM数量,以及H100中更高的时钟频率。在每个SM上,与上一代16位浮点选项相比,Tensor Cores在同等数据类型上的MMA(矩阵乘积)计算速率是A100 SM的2倍,使用新的FP8数据类型的速率是A100的4倍。稀疏性1功能利用了深度学习网络中的细粒度结构化稀疏性,使标准张量核心操作的性能提高了一倍。

 

 

新的DPX指令对动态编程算法的加速比A100 GPU高7倍。在基因组学处理的Smith-Waterman算法,以及用于在动态仓库环境中为机器人车队寻找最佳路线的Floyd-Warshall算法上验证后,证实了性能提升。

 

与A100相比,IEEE FP64和FP32的处理率在芯片间快了3倍,这是由于每个SM的clock-for-clock性能快了2倍,加上H100的额外SM数量和更高的时钟。

 

 

新的线程块集群功能能够以大于单个SM上的单个线程块的颗粒度对位置性进行编程控制。扩展了CUDA编程模型,为编程层次增加了一个层次,现在包括线程、线程块、线程块集群和网格。集群使多个线程块可以在多个SM上并发运行,以同步和协作方式获取和交换数据。

 

分布式共享内存允许在多个SM共享内存块上进行SM到SM的直接通信,用于加载、存储和原子学。

 

 

新的异步执行功能包括一个新的张量内存加速器(TMA)单元,可以在全局内存和共享内存之间有效地传输大型数据块。TMA还支持集群中线程块之间的异步拷贝。还有一个新的异步事务屏障,用于做原子数据移动和同步。

 

新的Transformer引擎采用了软件和定制的英伟达Hopper Tensor Core技术的组合,专门用于加速转化器模型的训练和推理。Transformer引擎能够智能管理并动态选择FP8和16位计算,自动处理每一层中FP8和16位之间的重铸和缩放,与上一代A100相比,在大型语言模型上的AI训练速度提升了9倍,AI推理速度提升了30倍。

 

 

HBM3内存子系统比上一代增加了近2倍的带宽。H100 SXM5 GPU是世界上第一个采用HBM3内存的GPU,提供领先于同级别的3TB/秒的内存带宽。

 

50 MB L2 高速缓存架构缓存了大量的模型和数据集,在重复访问时减少了对HBM3的访问。

 

与A100相比,第二代多实例GPU(MIG)技术为每个GPU实例提供了约3倍的计算能力和近2倍的内存带宽。也是首次提供具有MIG级TEE的机密计算能力。支持多达七个独立的GPU实例,每个实例都有专用的NVDEC和NVJPG单元。每个实例都包括自己的一套性能监控器,可与NVIDIA开发人员工具一起使用。

 

 

新的机密计算(Confidential Computing)支持可以保护用户数据,抵御硬件和软件攻击,并在虚拟化和MIG环境中更好地隔离和保护虚拟机(VM)。H100实现了世界上第一个原生机密计算GPU,并以全PCIe线速向CPU扩展了可信执行环境(TEE)。

 

第四代NVLink在all-reduce操作上提供了3倍的带宽,比上一代NVLink增加了50%的通用带宽,多GPU IO的总带宽为900 GB/秒,操作带宽是PCIe第五代的7倍。

 

 

第三代NVSwitch技术包括驻扎在节点内部和外部的交换机,用于连接服务器、集群和数据中心环境中的多个GPU。

 

节点内的每个NVSwitch提供64个第四代NVLink链接端口,以加速多GPU连接。交换机的总吞吐量从上一代的7.2 Tbits/秒增加到13.6 Tbits/秒。新的第三代NVSwitch技术还为多播和NVIDIA SHARP网内还原的集体操作提供了硬件加速。

 

 

新的NVLink Switch系统互连技术和基于第三代NVSwitch技术的新的二级NVLink Switches引入了地址空间隔离和保护,使多达32个节点或256个GPU能够通过NVLink以2:1的锥形树状拓扑连接起来。

 

这些连接的节点能够提供57.6TB/秒的all-to-all带宽,并能够提供惊人的FP8稀疏AI计算的exaFLOP。PCIe Gen 5能够提供128GB/秒的总带宽(每个方向64GB/秒),而第四代PCIe的总带宽为64GB/秒(每个方向32GB/秒)。PCIe Gen5使H100能够与最高性能的x86 CPU和SmartNICs或数据处理单元(DPU)连接。

 

 

更多技术细节可以访问原文查看。总而言之,H100就是更快、更高、更强!(更贵)

参考资料:

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
84 0
|
15天前
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
57 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
1月前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
72 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
1月前
|
设计模式 人工智能 算法
编程之旅:从代码到架构的感悟
【9月更文挑战第33天】在编程的世界里,代码不仅是实现功能的工具,更是连接思想与现实的桥梁。本文将通过个人的编程经历,分享从编写第一行代码到设计系统架构的旅程,探索编程背后的哲学和技术演变。我们将一起思考,如何在代码的海洋中找到自己的航向,以及在这个过程中如何不断成长和适应变化。
|
2月前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
75 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
|
2月前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
96 4
|
2月前
|
分布式计算 负载均衡 监控
p2p网络架构模型
P2P(Peer-to-Peer)模式是一种网络架构模型,在这种模型中,每个节点(peer)既是服务的提供者也是服务的消费者。这意味着每个参与的节点都可以直接与其他节点通信,并且可以相互提供资源和服务,例如文件共享、流媒体传输等。
83 6
|
2月前
|
机器学习/深度学习 数据采集
详解Diffusion扩散模型:理论、架构与实现
【9月更文挑战第23天】扩散模型(Diffusion Models)是一类基于随机过程的深度学习模型,通过逐步加噪和去噪实现图像生成,在此领域表现优异。模型分正向扩散和反向生成两阶段:前者从真实数据加入噪声至完全噪音,后者则学习从噪声中恢复数据,经由反向过程逐步还原生成清晰图像。其主要架构采用U-net神经网络,实现过程中需数据预处理及高斯噪声添加等步骤,最终通过模型逆向扩散生成新数据,具有广泛应用前景。
|
2月前
|
存储 缓存 Java
JAVA并发编程系列(11)线程池底层原理架构剖析
本文详细解析了Java线程池的核心参数及其意义,包括核心线程数量(corePoolSize)、最大线程数量(maximumPoolSize)、线程空闲时间(keepAliveTime)、任务存储队列(workQueue)、线程工厂(threadFactory)及拒绝策略(handler)。此外,还介绍了四种常见的线程池:可缓存线程池(newCachedThreadPool)、定时调度线程池(newScheduledThreadPool)、单线程池(newSingleThreadExecutor)及固定长度线程池(newFixedThreadPool)。

热门文章

最新文章