带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(2)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
云服务器 ECS,u1 4核16GB 1个月
简介: 带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(2)

带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(1):https://developer.aliyun.com/article/1423694


∙        第四代Tensor Core

◦        Ada架构搭载的第四代Tensor Core,大部分特性跟Hopper架构一样,最重要的是引入了一个新的数据类型FP8。不同的是去掉了FP64的支持,增加了INT4的支持。

◦        Tensor Core性能上,AD102相比GH100,大概是1/3的水平,跟GA100接近,是GA1022倍。相比Ampere架构主要是新增了FP8的支持。

∙        L2缓存

◦        AD102L2缓存增大到了98304KB,是GA102(6144KB)16倍。

◦        更大的L2缓存使得HPCAI应用可以将更多的数据缓存到L2,而不是放到显存上,从而获得更高的读写速度,比如小batch size的深度神经网络的计算。

∙        GDDR6X显存

◦        高达1TGB/s24GBGDDR6X显存,目前最高速的GDDR显存。

∙        GPU Spec

◦        RTX 4090是最新一代面向图形计算场景的GPU卡,我们将RTX 4090与上一代Ampere架构Tesla A100RTX 3090 Ti的主要参数做了对比如下:

GPU Type

RTX 4090

RTX 3090 Ti

A100(SXM4-80G)

GPU Architechture

AD102(Ada Lovelace)

GA102(Ampere)

GA100(Ampere)

GPCs(Graphics Processing Clusters)

11

7

7

TPCs(Texture Processing Clusters)

64

42

54

SMs(Streaming Multiprocessors )

128

84

108

FP32 CUDA Cores

16384

10752

6912

INT32 CUDA Cores

8192

5376

6912

FP64 CUDA Cores

N/A

N/A

3456

Tensor Cores

512

336

432

RT Cores

128

84

N/A

Geometry Units

64

41

N/A

TMUs(Texture Units)

512

336

432

ROPs(Raster Operation Units)

176

112

160

INT4(TOPS)

1322/2644

640/1280

1248/2496

INT8(TOPS)

660.6/1322

320/640

624/1248

INT32(TIPS)

43

20

19.5

BF16(TFLOPS)

86

40

39

FP16(TFLOPS)

86

40

78

FP32(TFLOPS)

86

40

19.5

FP64(TFLOPS)

3

N/A

19.7

Tensor Core FP8(TFLOPS)

660.6/1322

N/A

N/A

Tensor Core FP16(TFLOPS)

330/660

160/320

312/624

Tensor Core TF32(TFLOPS)

86/165.2

40/80

156/312

Tensor Core FP64(TFLOPS)

N/A

N/A

19.5

RTX-OPS(TOPS)

191

78.1

N/A

GPU Memory

24 GB GDDR6X

24 GB GDDR6X

80 GB HBM2e

Memory Clock(MHz)

1325

1219

1593

Memory Interface Width

384-bit

384-bit

5120-bit(10*512-bit)

Memory Bandwidth(GB/s)

1008

1008

2039

Interconnect Bandwidth(GB/s)

PCIe Gen4:64

PCIe Gen4:64

NVLINK:600

Default Graphic Clock(MHz)

2230

1395

1155

Max Graphic Clock(MHz)

2520

1860

1410

Power(Watt)

450

350

400

 

Spec来看,使用新架构的RTX 4090相对于RTX 3090 TiCUDA CoreTensor Core以及RT Core的性能均提升了2倍左右,显存容量和带宽并没有变化。而相比Tesla A100 Tensor Core性能是基本相当,略高5%。但是Tesla A100的显存带宽是RTX 40902倍,受限于显存带宽4090的算力发挥会受影响,推测小bsAI任务RTX 4090会略有优势或者与A100接近,但是随着bs增大,Tesla A100的性能应该会更好,而且随着bs增大差距会拉大。

当然以上都是硬件的理论性能指标,那么RTX 4090的实际性能表现如何呢?下面通过一些实测数据来分析。

性能实测

我们测试了RTX 4090在图像分类、文本生成、图片生成这几个主要AI任务的训练和推理性能,并和Tesla A100做了相应对比。测试都是单卡,不考虑GPU间通信带宽对性能的影响。

从下面的测试结果来看,基本跟上面的分析差不多,RTX 4090算力略高于A100,但受限于显存带宽,实际小任务时性能与A100接近,大任务时A100优势更大。

图像分类(ResNet50)

图像分类测试的是TensorFlow ResNet50-v5 Training的性能:

TensorFlow ResNet50-v5 Training

GPU nums

batch size per GPU

precision

variable_update

local_parameter_device

all_reduce_spec

4090(images/sec)

A100-80G(images/sec)

A100/4090

1

64

fp16

parameter_server

cpu

None

1324

1274.46

96.26%

1

128

fp16

parameter_server

cpu

None

1356.46

17825

1346%

1

64

fp16

parameter_server

gpu

None

1614.9

1784.63

110.51%

1

128

fp16

parameter_server

gpu

None

14791

1978.99

134.36%

1

64

fp16

replicated

gpu

None

15949

1486.6

935%

1

128

fp16

replicated

gpu

None

1457.87

20165

138.05%

1

64

fp16

replicated

gpu

pscpu

1595.17

1627.92

1005%

1

128

fp16

replicated

gpu

pscpu

1460.31

2004.91

137.29%

1

64

fp16

replicated

gpu

nccl

1589.09

1786.49

1142%

1

128

fp16

replicated

gpu

nccl

15343

20513

1394%

 

从测试结果看,bs=644090性能与A100是接近的,但是到了bs=128时,差距可以达到30%以上。

文本生成(LLAMA

我们测试了LLAMA 7b文本生成推理任务,用吞吐也就是每秒生成的token数作为评估标准,值越大性能越好。

GPU

model size

precision

batch size

throught(tokens/s)

4090

7b

fp16

1

46.38

A100

7b

fp16

1

46.35

4090

7b

fp16

2

87.85

A100

7b

fp16

2

90.68

 

从测试结果可以看到:

Bs=14090A100差不多,bs=2A100就超过4090了。

图片生成(Stable Diffusion

Stable Diifusion 测试的是WEB UI场景固定sampling step=20生成512*512尺寸图片的时间,时间越短性能越好。测试了Pytorch native以及xformers加速后的生成时间。

 

GPU

加速库

sampling steps

image size

batch size

time(s)

4090

native

20

512*512

1

0.9

A100

native

20

512*512

1

1

4090

xformers

20

512*512

1

0.6

A100

xformers

20

512*512

1

0.8

4090

native

20

512*512

8

6.8

A100

native

20

512*512

8

5.4

4090

xformers

20

512*512

8

4.5

A100

xformers

20

512*512

8

4.1

 

从结果看,在bs=1时,4090性能是优于A100的,但是当bs增大到8时,A100的性能就明显超过4090了。

  

总结

RTX 4090Ada Lovelace架构继承了Hopper架构在AI计算方面的特性,同时搭载了新的第三代RT CoreAI性能和光追算力相比上一代RTX 3090 Ti均提升一倍,单GPU AI算力与A100接近。实际测试4090在小bs推理任务上可以与A100相当,但是首先显存带宽以及GPU间高速通信带宽的缺失,在多卡训练和推理任务上相比A100差距还是会很大。

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
6天前
|
运维 Cloud Native 持续交付
探索云原生架构:构建现代应用的基石
【7月更文挑战第9天】本文深入探讨了云原生架构的核心概念、关键技术组件以及实施的最佳实践。通过分析云原生技术如何促进微服务架构的实现,容器化技术的利用,以及持续集成与持续部署(CI/CD)流程的自动化,本文旨在为读者提供一个全面的云原生技术框架视图,并揭示其在加速企业数字化转型过程中的关键作用。
|
2天前
|
Cloud Native 安全 API
云原生架构在现代企业中的应用与挑战
随着云计算技术的飞速发展,云原生架构逐渐成为推动企业数字化转型的重要力量。本文深入探讨了云原生架构的核心组件、实施策略以及面临的主要挑战,旨在为读者提供一套系统的云原生应用框架和解决方案。通过分析多个行业案例,本文揭示了云原生技术如何助力企业提升业务灵活性、加快产品上市时间并优化资源管理。
|
6天前
|
运维 Cloud Native Devops
云原生架构在现代企业中的应用与挑战
随着数字化转型的深入,云原生技术成为支撑企业创新和灵活性的关键。本文将探讨云原生架构的核心概念、优势以及在实际应用中面临的主要挑战。通过分析不同行业的案例,我们将揭示云原生如何助力企业实现资源的最优配置和业务流程的自动化,同时指出安全性、合规性和技术复杂性等实施障碍,为读者提供一套实施云原生架构时的考量框架。
|
7天前
|
消息中间件 Java 微服务
构建可扩展的Java Web应用架构
构建可扩展的Java Web应用架构
|
7天前
|
Kubernetes Cloud Native 微服务
企业级容器部署实战:基于ACK与ALB灵活构建云原生应用架构
这篇内容概述了云原生架构的优势,特别是通过阿里云容器服务Kubernetes版(ACK)和应用负载均衡器(ALB)实现的解决方案。它强调了ACK相对于自建Kubernetes的便利性,包括优化的云服务集成、自动化管理和更强的生态系统支持。文章提供了部署云原生应用的步骤,包括一键部署和手动部署的流程,并指出手动部署更适合有技术背景的用户。作者建议在预算允许的情况下使用ACK,因为它能提供高效、便捷的管理体验。同时,文章也提出了对文档改进的建议,如添加更多技术细节和解释,以帮助用户更好地理解和实施解决方案。最后,展望了ACK未来在智能化、安全性与边缘计算等方面的潜在发展。水文一篇,太忙了,见谅!
|
12天前
|
运维 Kubernetes Docker
容器化技术在微服务架构中的应用
【7月更文挑战第3天】容器化技术在微服务架构中的应用,为现代应用的开发、部署和运维带来了革命性的变化。通过容器化,我们可以实现服务的快速部署、独立运行和高效扩展,同时提高资源的利用率和系统的可维护性。随着容器技术的不断发展和完善,相信它将在未来的软件开发中发挥更加重要的作用。
|
13天前
|
大数据 数据处理 数据中心
x86和x64架构的区别及应用
x86和x64架构的区别及应用
|
14天前
|
大数据 数据处理 数据中心
x86和x64架构的区别及应用
x86和x64架构的区别及应用
|
3天前
|
前端开发 Linux Shell
技术心得:基于AR9331(MIPS架构)分析系统启动过程(uboot)
技术心得:基于AR9331(MIPS架构)分析系统启动过程(uboot)
|
7天前
|
运维 Prometheus 监控
「架构」云上自动化运维及其应用
企业在云上采用自动化运维,通过Prometheus+Grafana实现监控,Ansible进行配置管理,Jenkins+GitLab+SonarQube支持CI/CD,提升效率,降低成本。关键指标包括系统可用性、故障恢复时间等。通过自动化监控、配置管理和持续集成/部署,保证服务稳定性,促进快速迭代,确保市场竞争力。持续改进与培训是维持领先的关键。
13 0