带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(2)

本文涉及的产品
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
轻量应用服务器 4vCPU 16GiB,适用于搭建游戏自建服
简介: 带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(2)

带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(1):https://developer.aliyun.com/article/1423694


∙        第四代Tensor Core

◦        Ada架构搭载的第四代Tensor Core,大部分特性跟Hopper架构一样,最重要的是引入了一个新的数据类型FP8。不同的是去掉了FP64的支持,增加了INT4的支持。

◦        Tensor Core性能上,AD102相比GH100,大概是1/3的水平,跟GA100接近,是GA1022倍。相比Ampere架构主要是新增了FP8的支持。

∙        L2缓存

◦        AD102L2缓存增大到了98304KB,是GA102(6144KB)16倍。

◦        更大的L2缓存使得HPCAI应用可以将更多的数据缓存到L2,而不是放到显存上,从而获得更高的读写速度,比如小batch size的深度神经网络的计算。

∙        GDDR6X显存

◦        高达1TGB/s24GBGDDR6X显存,目前最高速的GDDR显存。

∙        GPU Spec

◦        RTX 4090是最新一代面向图形计算场景的GPU卡,我们将RTX 4090与上一代Ampere架构Tesla A100RTX 3090 Ti的主要参数做了对比如下:

GPU Type

RTX 4090

RTX 3090 Ti

A100(SXM4-80G)

GPU Architechture

AD102(Ada Lovelace)

GA102(Ampere)

GA100(Ampere)

GPCs(Graphics Processing Clusters)

11

7

7

TPCs(Texture Processing Clusters)

64

42

54

SMs(Streaming Multiprocessors )

128

84

108

FP32 CUDA Cores

16384

10752

6912

INT32 CUDA Cores

8192

5376

6912

FP64 CUDA Cores

N/A

N/A

3456

Tensor Cores

512

336

432

RT Cores

128

84

N/A

Geometry Units

64

41

N/A

TMUs(Texture Units)

512

336

432

ROPs(Raster Operation Units)

176

112

160

INT4(TOPS)

1322/2644

640/1280

1248/2496

INT8(TOPS)

660.6/1322

320/640

624/1248

INT32(TIPS)

43

20

19.5

BF16(TFLOPS)

86

40

39

FP16(TFLOPS)

86

40

78

FP32(TFLOPS)

86

40

19.5

FP64(TFLOPS)

3

N/A

19.7

Tensor Core FP8(TFLOPS)

660.6/1322

N/A

N/A

Tensor Core FP16(TFLOPS)

330/660

160/320

312/624

Tensor Core TF32(TFLOPS)

86/165.2

40/80

156/312

Tensor Core FP64(TFLOPS)

N/A

N/A

19.5

RTX-OPS(TOPS)

191

78.1

N/A

GPU Memory

24 GB GDDR6X

24 GB GDDR6X

80 GB HBM2e

Memory Clock(MHz)

1325

1219

1593

Memory Interface Width

384-bit

384-bit

5120-bit(10*512-bit)

Memory Bandwidth(GB/s)

1008

1008

2039

Interconnect Bandwidth(GB/s)

PCIe Gen4:64

PCIe Gen4:64

NVLINK:600

Default Graphic Clock(MHz)

2230

1395

1155

Max Graphic Clock(MHz)

2520

1860

1410

Power(Watt)

450

350

400

 

Spec来看,使用新架构的RTX 4090相对于RTX 3090 TiCUDA CoreTensor Core以及RT Core的性能均提升了2倍左右,显存容量和带宽并没有变化。而相比Tesla A100 Tensor Core性能是基本相当,略高5%。但是Tesla A100的显存带宽是RTX 40902倍,受限于显存带宽4090的算力发挥会受影响,推测小bsAI任务RTX 4090会略有优势或者与A100接近,但是随着bs增大,Tesla A100的性能应该会更好,而且随着bs增大差距会拉大。

当然以上都是硬件的理论性能指标,那么RTX 4090的实际性能表现如何呢?下面通过一些实测数据来分析。

性能实测

我们测试了RTX 4090在图像分类、文本生成、图片生成这几个主要AI任务的训练和推理性能,并和Tesla A100做了相应对比。测试都是单卡,不考虑GPU间通信带宽对性能的影响。

从下面的测试结果来看,基本跟上面的分析差不多,RTX 4090算力略高于A100,但受限于显存带宽,实际小任务时性能与A100接近,大任务时A100优势更大。

图像分类(ResNet50)

图像分类测试的是TensorFlow ResNet50-v5 Training的性能:

TensorFlow ResNet50-v5 Training

GPU nums

batch size per GPU

precision

variable_update

local_parameter_device

all_reduce_spec

4090(images/sec)

A100-80G(images/sec)

A100/4090

1

64

fp16

parameter_server

cpu

None

1324

1274.46

96.26%

1

128

fp16

parameter_server

cpu

None

1356.46

17825

1346%

1

64

fp16

parameter_server

gpu

None

1614.9

1784.63

110.51%

1

128

fp16

parameter_server

gpu

None

14791

1978.99

134.36%

1

64

fp16

replicated

gpu

None

15949

1486.6

935%

1

128

fp16

replicated

gpu

None

1457.87

20165

138.05%

1

64

fp16

replicated

gpu

pscpu

1595.17

1627.92

1005%

1

128

fp16

replicated

gpu

pscpu

1460.31

2004.91

137.29%

1

64

fp16

replicated

gpu

nccl

1589.09

1786.49

1142%

1

128

fp16

replicated

gpu

nccl

15343

20513

1394%

 

从测试结果看,bs=644090性能与A100是接近的,但是到了bs=128时,差距可以达到30%以上。

文本生成(LLAMA

我们测试了LLAMA 7b文本生成推理任务,用吞吐也就是每秒生成的token数作为评估标准,值越大性能越好。

GPU

model size

precision

batch size

throught(tokens/s)

4090

7b

fp16

1

46.38

A100

7b

fp16

1

46.35

4090

7b

fp16

2

87.85

A100

7b

fp16

2

90.68

 

从测试结果可以看到:

Bs=14090A100差不多,bs=2A100就超过4090了。

图片生成(Stable Diffusion

Stable Diifusion 测试的是WEB UI场景固定sampling step=20生成512*512尺寸图片的时间,时间越短性能越好。测试了Pytorch native以及xformers加速后的生成时间。

 

GPU

加速库

sampling steps

image size

batch size

time(s)

4090

native

20

512*512

1

0.9

A100

native

20

512*512

1

1

4090

xformers

20

512*512

1

0.6

A100

xformers

20

512*512

1

0.8

4090

native

20

512*512

8

6.8

A100

native

20

512*512

8

5.4

4090

xformers

20

512*512

8

4.5

A100

xformers

20

512*512

8

4.1

 

从结果看,在bs=1时,4090性能是优于A100的,但是当bs增大到8时,A100的性能就明显超过4090了。

  

总结

RTX 4090Ada Lovelace架构继承了Hopper架构在AI计算方面的特性,同时搭载了新的第三代RT CoreAI性能和光追算力相比上一代RTX 3090 Ti均提升一倍,单GPU AI算力与A100接近。实际测试4090在小bs推理任务上可以与A100相当,但是首先显存带宽以及GPU间高速通信带宽的缺失,在多卡训练和推理任务上相比A100差距还是会很大。

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
目录
打赏
0
0
0
0
1028
分享
相关文章
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
621 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
106 13
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
浙江霖梓早期基于 Apache Doris 进行整体架构与表结构的重构,并基于湖仓一体和查询加速展开深度探索与实践,打造了 Doris + Paimon 的实时/离线一体化湖仓架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
体育赛事即时比分 分析页面的开发技术架构与实现细节
本文基于“体育即时比分系统”开发经验总结,分享技术实现细节。系统通过后端(ThinkPHP)、前端(Vue.js)、移动端(Android/iOS)协同工作,解决实时比分更新、赔率同步及赛事分析展示等问题。前端采用 Vue.js 结合 WebSocket 实现数据推送,提升用户体验;后端提供 API 支持比赛数据调用;移动端分别使用 Java 和 Objective-C 实现跨平台功能。代码示例涵盖比赛分析页面、API 接口及移动端数据加载逻辑,为同类项目开发提供参考。
刷新世界纪录!阿里云PolarDB凭借创新的「三层解耦」架构刷新TPC-C基准测试世界纪录
刷新世界纪录!阿里云PolarDB凭借创新的「三层解耦」架构刷新TPC-C基准测试世界纪录
|
26天前
|
类似ComfyUI和Midjourney这样的文生图图生图应用的API与服务架构该怎么设计
文生图图生图应用的API与服务架构分析。或和微服务类似,但是不同。ComfyUI其 API 架构设计为我们理解此类应用提供了很好的参考模型。但距离生产级别的应用差距还有很远。
75 0
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
MarS 是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础模型 LMM,支持无风险环境下的交易策略测试、风险管理和市场分析。
121 8
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
一文分析架构思维之建模思维
软件里的要素不是凭空出现的,都是源于实际的业务。本文从软件设计本源到建模案例系统的介绍了作者对于建模的思维和思考。
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。