技术改变AI发展:Ada Lovelace架构解读及RTX 4090性能测试分析(系列三)

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
无影云电脑企业版,4核8GB 120小时 1个月
资源编排,不限时长
简介: 简介:随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。Ada lovelace(后面简称Ada)是NVIDIA最新的图形处理器架构,随2022年9月20日发布的RTX 4090一起公布。

背景

Ada lovelace(后面简称Ada)是NVIDIA最新的图形处理器架构,随2022年9月20日发布的RTX 4090一起公布。本节对RTX 4090以及Ada架构及其新特性先做一个全面的梳理。性能分析部分处理器参照物主要是Hopper架构的GH100和Ampere架构的GA100/GA102,GPU参照物主要是H100(GH100)和A100(GA100)或3090 Ti(GA102)。

Ada架构

跟Hopper架构的GH100一样,Ada架构的AD102也采用了台积电的4nm N4工艺制程,这使得AD102得以集成高达763亿个晶体管,同时可以获得更高的频率,GPU Boost Clock高达2.52GHz,使得搭载AD102的RTX 4090成为目前频率最高的NVIDIA GPU。

AD102搭载了新的第四代Tensor Core,低精度数据类型上,跟GH100一样,新增支持业界首创的FP8数据类型,支持INT8,但Ada增加了Hopper上去掉的INT4;高精度数据类型上,支持BF16数据类型,支持TF32数据类型,但Ada去掉了FP64的TensorCore支持。同样,Ada架构每个SM张量核在等效数据类型上提供Ampere架构 SM的2倍MMA(矩阵乘法累加)计算速率。针对深度学习领域,同样提供稀疏神经网络的硬件加速支持,标准张量核心操作性能翻倍。

得益于每个SM 的CUDA core性能提升2倍(相比Ampere数量翻倍)以及更多的SM数量,IEEE FP32的性能相比GA102也提升了近3倍。

Ada架构芯片搭载了新的第三代RT Core(Turing架构首次引入RT Core,可实现硬件加速的实时光线追踪渲染。),

每个SM的组合共享内存和L1数据缓存为128KB,整个AD102的L1数据缓存可达18432KB。

显存带宽为1TB/s的GDDR6X。

支持PCIe GEN4(双向带宽64GB/s)。

SM架构

Ada SM架构最重要的是搭载了第四代Tensor Core和新的第三代RT Core。

架构总览

Ada完整的AD102芯片架构如下图所示:



配置如下:

12 GPCs, 72 TPCs(6 TPCs/GPC), 2 SMs/TPC, 12 SMs/GPC, 144 SMs per full GPU

128 FP32 CUDA Cores/SM, 18432 FP32 CUDA Cores per full GPU

4 forth-generation Tensor Cores/SM, 576 forth-generation Tensor Cores per full GPU

GDDR6X, 384-bit memory interface with 12 32-bit memory controllers

 288 FP64 Cores(2 per SM),1/64th TFLOP rate of FP32

RTX 4090有一些裁剪,配置如下:

11 GPCs, 64 TPCs, 2 SMs/TPC, 128 SMs

 128 FP32 CUDA Cores/SM, 16384 FP32 CUDA Cores per GPU

 4 forth-generation Tensor Cores/SM, 512 forth-generation Tensor Cores per full GPU

5 HBM2 stacks, 10 512-bit memory controllers

GDDR6X, 384-bit memory interface with 12 32-bit memory controller


GPC结构如果下图所示:



Ada架构每个GPC包含1个Raster Engine(光栅化引擎),6个TPC,12个SM,16个ROP(8 per ROP partition)。



Ada架构每个 TPC 包含2个 SM,每个 SM 包含 128 个 FP32 CUDA核心和 64 个 INT32 CUDA核心(FP32是Ampere的2倍,INT32不变)、2个FP64 CUDA核心(满足少量需要高精度的运算类型)、4个第四代Tensor核心、1个第三代RT核心。相比定位于数据中心计算的Hopper ,侧重于图形计算的Ada架构FP64核心数量大幅减少(上图因为数量太少并未画出),增加了一个RT核心。

如图所示,Ada SM 划分为4个处理块,每个处理块均包含32 个 FP32 CUDA核心、 16 个 INT32 CUDA核心、1 个 Tensor 核心、 1 个线程束调度器和 1 个分配单元。每个处理块还具有一个L0 指令缓存和一个 16 KB 寄存器堆。这四个处理块共享一个L1指令缓存,以及一个组合式的128 KB L1 数据缓存或共享内存,是Hopper GA100的一半。整个AD102的L1缓存为18432KB,相比Ampere GA102的10752KB提升了70%。

第四代Tensor Core

Ada架构搭载的第四代Tensor Core,大部分特性跟Hopper架构一样,最重要的是引入了一个新的数据类型FP8。不同的是去掉了FP64的支持,增加了INT4的支持。

在Tensor Core性能上,AD102相比GH100,大概是1/3的水平,跟GA100接近,是GA102的2倍。相比Ampere架构主要是新增了FP8的支持。

L2缓存

AD102的L2缓存增大到了98304KB,是GA102(6144KB)的16倍。

更大的L2缓存使得HPC和AI应用可以将更多的数据缓存到L2,而不是放到显存上,从而获得更高的读写速度,比如小batch size的深度神经网络的计算。

GDDR6X显存

高达1TGB/s的24GB的GDDR6X显存,目前最高速的GDDR显存。

GPU Spec

RTX 4090是最新一代面向图形计算场景的GPU卡,我们将RTX 4090与上一代Ampere架构Tesla A100和RTX 3090 Ti的主要参数做了对比如下:

GPU Type

RTX 4090

RTX 3090 Ti

A100(SXM4-80G)

GPU Architechture

AD102(Ada Lovelace)

GA102(Ampere)

GA100(Ampere)

GPCs(Graphics Processing Clusters)

11

7

7

TPCs(Texture Processing Clusters)

64

42

54

SMs(Streaming Multiprocessors )

128

84

108

FP32 CUDA Cores

16384

10752

6912

INT32 CUDA Cores

8192

5376

6912

FP64 CUDA Cores

N/A

N/A

3456

Tensor Cores

512

336

432

RT Cores

128

84

N/A

Geometry Units

64

41

N/A

TMUs(Texture Units)

512

336

432

ROPs(Raster Operation Units)

176

112

160

INT4(TOPS)

1321.2/2642.4

640/1280

1248/2496

INT8(TOPS)

660.6/1321.2

320/640

624/1248

INT32(TIPS)

41.3

20

19.5

BF16(TFLOPS)

82.6

40

39

FP16(TFLOPS)

82.6

40

78

FP32(TFLOPS)

82.6

40

19.5

FP64(TFLOPS)

1.3

N/A

9.7

Tensor Core FP8(TFLOPS)

660.6/1321.2

N/A

N/A

Tensor Core FP16(TFLOPS)

330/660

160/320

312/624

Tensor Core TF32(TFLOPS)

82.6/165.2

40/80

156/312

Tensor Core FP64(TFLOPS)

N/A

N/A

19.5

RTX-OPS(TOPS)

191

78.1

N/A

GPU Memory

24 GB GDDR6X

24 GB GDDR6X

80 GB HBM2e

Memory Clock(MHz)

1325

1219

1593

Memory Interface Width

384-bit

384-bit

5120-bit(10*512-bit)

Memory Bandwidth(GB/s)

1008

1008

2039

Interconnect Bandwidth(GB/s)

PCIe Gen4:64

PCIe Gen4:64

NVLINK:600

Default Graphic Clock(MHz)

2230

1395

1155

Max Graphic Clock(MHz)

2520

1860

1410

Power(Watt)

450

350

400

从Spec来看,使用新架构的RTX 4090相对于RTX 3090 Ti,CUDA Core、Tensor Core以及RT Core的性能均提升了2倍左右,显存容量和带宽并没有变化。而相比Tesla A100 ,Tensor Core性能是基本相当,略高5%。但是Tesla A100的显存带宽是RTX 4090的2倍,受限于显存带宽4090的算力发挥会受影响,推测小bs的AI任务RTX 4090会略有优势或者与A100接近,但是随着bs增大,Tesla A100的性能应该会更好,而且随着bs增大差距会拉大。

当然以上都是硬件的理论性能指标,那么RTX 4090的实际性能表现如何呢?下面通过一些实测数据来分析。

性能实测

我们测试了RTX 4090在图像分类、文本生成、图片生成这几个主要AI任务的训练和推理性能,并和Tesla A100做了相应对比。测试都是单卡,不考虑GPU间通信带宽对性能的影响。

从下面的测试结果来看,基本跟上面的分析差不多,RTX 4090算力略高于A100,但受限于显存带宽,实际小任务时性能与A100接近,大任务时A100优势更大。

图像分类(ResNet50)

图像分类测试的是TensorFlow ResNet50-v1.5 Training的性能:

TensorFlow ResNet50-v1.5 Training

GPU nums

batch size per GPU

precision

variable_update

local_parameter_device

all_reduce_spec

4090(images/sec)

A100-80G(images/sec)

A100/4090

1

64

fp16

parameter_server

cpu

None

1324

1274.46

96.26%

1

128

fp16

parameter_server

cpu

None

1356.46

1783.25

131.46%

1

64

fp16

parameter_server

gpu

None

1614.9

1784.63

110.51%

1

128

fp16

parameter_server

gpu

None

1472.91

1978.99

134.36%

1

64

fp16

replicated

gpu

None

1592.49

1486.6

93.35%

1

128

fp16

replicated

gpu

None

1457.87

2012.65

138.05%

1

64

fp16

replicated

gpu

pscpu

1595.17

1627.92

102.05%

1

128

fp16

replicated

gpu

pscpu

1460.31

2004.91

137.29%

1

64

fp16

replicated

gpu

nccl

1589.09

1786.49

112.42%

1

128

fp16

replicated

gpu

nccl

1531.43

2051.13

133.94%

从测试结果看,bs=64时4090性能与A100是接近的,但是到了bs=128时,差距可以达到30%以上。


文本生成(LLAMA)

我们测试了LLAMA 7b文本生成推理任务,用吞吐也就是每秒生成的token数作为评估标准,值越大性能越好。

GPU

model size

precision

batch size

throught(tokens/s)

4090

7b

fp16

1

46.38

A100

7b

fp16

1

46.35

4090

7b

fp16

2

87.85

A100

7b

fp16

2

90.68

从测试结果可以看到:

Bs=1时4090跟A100差不多,bs=2时A100就超过4090了。

图片生成(Stable Diffusion)

Stable Diifusion 测试的是WEB UI场景固定sampling step=20生成512*512尺寸图片的时间,时间越短性能越好。测试了Pytorch native以及xformers加速后的生成时间。

GPU

加速库

sampling steps

image size

batch size

time(s)

4090

native

20

512*512

1

0.9

A100

native

20

512*512

1

1

4090

xformers

20

512*512

1

0.6

A100

xformers

20

512*512

1

0.8

4090

native

20

512*512

8

6.8

A100

native

20

512*512

8

5.4

4090

xformers

20

512*512

8

4.5

A100

xformers

20

512*512

8

4.1

从结果看,在bs=1时,4090性能是优于A100的,但是当bs增大到8时,A100的性能就明显超过4090了。


总结

RTX 4090的Ada Lovelace架构继承了Hopper架构在AI计算方面的特性,同时搭载了新的第三代RT Core,AI性能和光追算力相比上一代RTX 3090 Ti均提升一倍,单GPU AI算力与A100接近。实际测试4090在小bs推理任务上可以与A100相当,但是首先显存带宽以及GPU间高速通信带宽的缺失,在多卡训练和推理任务上相比A100差距还是会很大。



我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
2天前
|
人工智能 达摩院 计算机视觉
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
31 9
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
|
8天前
|
人工智能 缓存 Ubuntu
AI+树莓派=阿里P8技术专家。模拟面试、学技术真的太香了 | 手把手教学
本课程由阿里P8技术专家分享,介绍如何使用树莓派和阿里云服务构建AI面试助手。通过模拟面试场景,讲解了Java中`==`与`equals`的区别,并演示了从硬件搭建、语音识别、AI Agent配置到代码实现的完整流程。项目利用树莓派作为核心,结合阿里云的实时语音识别、AI Agent和文字转语音服务,实现了一个能够回答面试问题的智能玩偶。课程展示了AI应用的简易构建过程,适合初学者学习和实践。
63 22
|
5天前
|
人工智能 Java 程序员
通义灵码AI编码助手和AI程序员背后的技术
通义灵码AI编码助手和AI程序员背后的技术,由通义实验室科学家黎槟华分享。内容涵盖三部分:1. 编码助手技术,包括构建优秀AI编码助手及代码生成补全;2. 相关的AI程序员技术,探讨AI程序员的优势、发展情况、评估方法及核心难点;3. 代码智能方向的展望,分析AI在软件开发中的角色转变,从辅助编程到成为开发主力,未来将由AI执行细节任务,开发者负责决策和审核,大幅提升开发效率。
63 12
|
7天前
|
人工智能 搜索推荐
AI视频技术的发展是否会影响原创内容的价值
AI视频技术的发展显著降低了视频制作的门槛与成本,自动完成剪辑、特效添加等繁琐工作,大大缩短创作时间。它提供个性化创意建议,帮助创作者突破传统思维,拓展创意边界。此外,AI技术使更多非专业人士也能参与视频创作,注入新活力与多样性,丰富了原创内容。总体而言,AI视频技术不仅提升了创作效率,还促进了视频内容的创新与多样化。
|
4天前
|
机器学习/深度学习 人工智能 编译器
BladeDISC++:Dynamic Shape AI 编译器下的显存优化技术
本文介绍了阿里云 PAI 团队近期发布的 BladeDISC++项目,探讨在动态场景下如何优化深度学习训练任务的显存峰值,主要内容包括以下三个部分:Dynamic Shape 场景下显存优化的背景与挑战;BladeDISC++的创新解决方案;Llama2 模型的实验数据分析
|
4天前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
|
14天前
|
监控 JavaScript 数据可视化
建筑施工一体化信息管理平台源码,支持微服务架构,采用Java、Spring Cloud、Vue等技术开发。
智慧工地云平台是专为建筑施工领域打造的一体化信息管理平台,利用大数据、云计算、物联网等技术,实现施工区域各系统数据汇总与可视化管理。平台涵盖人员、设备、物料、环境等关键因素的实时监控与数据分析,提供远程指挥、决策支持等功能,提升工作效率,促进产业信息化发展。系统由PC端、APP移动端及项目、监管、数据屏三大平台组成,支持微服务架构,采用Java、Spring Cloud、Vue等技术开发。
|
14天前
|
存储 人工智能 监控
AI视频监控技术在公租房管理中的应用:提升监管精准度与效率
该AI视频监控系统具备1080P高清与夜视能力,采用深度学习技术实现高精度人脸识别(误识率1%),并支持实时预警功能,响应时间小于5秒。系统支持私有化部署,保障数据隐私安全,适用于大规模公租房社区管理,可容纳10万以上人脸库。基于开源架构和Docker镜像,一键部署简单快捷,确保24小时稳定运行,并提供详细的后台数据分析报表,助力政府决策。
|
4天前
|
人工智能 编解码 安全
全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
本文介绍了智能媒体服务的国际化产品技术创新及AIGC驱动的内容出海技术实践。首先,探讨了媒体服务在视频应用中的升级引擎作用,分析了国际市场的差异与挑战,并提出模块化产品方案以满足不同需求。其次,重点介绍了AIGC技术如何推动媒体服务2.0智能化进化,涵盖多模态内容理解、智能生产制作、音视频处理等方面。最后,发布了阿里云智能媒体服务的国际产品矩阵,包括媒体打包、转码、实时处理和传输服务,支持多种广告规格和效果追踪分析,助力全球企业进行视频化创新。
|
1月前
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。