带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(1)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
云服务器(按量付费),48vCPU 186GiB
简介: 带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(1)

简介:随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。Ada lovelace(后面简称Ada)是NVIDIA最新的图形处理器架构,随2022920日发布的RTX 4090一起公布。

背景:Ada lovelace(后面简称Ada)是NVIDIA最新的图形处理器架构,随2022920日发布的RTX 4090一起公布。本节对RTX 4090以及Ada架构及其新特性先做一个全面的梳理。性能分析部分处理器参照物主要是Hopper架构的GH100Ampere架构的GA100/GA102GPU参照物主要是H100GH100)和A100(GA100)3090 Ti(GA102)

Ada架构

Hopper架构的GH100一样,Ada架构的AD102也采用了台积电的4nm N4工艺制程,这使得AD102得以集成高达763亿个晶体管,同时可以获得更高的频率,GPU Boost Clock高达52GHz,使得搭载AD102RTX 4090成为目前频率最高的NVIDIA GPU

AD102搭载了新的第四代Tensor Core,低精度数据类型上,跟GH100一样,新增支持业界首创的FP8数据类型,支持INT8,但Ada增加了Hopper上去掉的INT4;高精度数据类型上,支持BF16数据类型,支持TF32数据类型,但Ada去掉了FP64TensorCore支持。同样,Ada架构每个SM张量核在等效数据类型上提供Ampere架构 SM2MMA(矩阵乘法累加)计算速率。针对深度学习领域,同样提供稀疏神经网络的硬件加速支持,标准张量核心操作性能翻倍。

得益于每个SM CUDA core性能提升2倍(相比Ampere数量翻倍)以及更多的SM数量,IEEE FP32的性能相比GA102也提升了近3倍。

Ada架构芯片搭载了新的第三代RT CoreTuring架构首次引入RT Core,可实现硬件加速的实时光线追踪渲染。),

每个SM的组合共享内存和L1数据缓存为128KB,整个AD102L1数据缓存可达18432KB

显存带宽为1TB/sGDDR6X

支持PCIe GEN4(双向带宽64GB/s)。

SM架构

Ada SM架构最重要的是搭载了第四代Tensor Core和新的第三代RT Core

 

架构总览

Ada完整的AD102芯片架构如下图所示:

image.png

配置如下:

12 GPCs, 72 TPCs(6 TPCs/GPC), 2 SMs/TPC, 12 SMs/GPC, 144 SMs per full GPU

∙        128 FP32 CUDA Cores/SM, 18432 FP32 CUDA Cores per full GPU

∙        4 forth-generation Tensor Cores/SM, 576 forth-generation Tensor Cores per full GPU

∙        GDDR6X, 384-bit memory interface with 12 32-bit memory controllers

∙        288 FP64 Cores(2 per SM)1/64th TFLOP rate of FP32

RTX 4090有一些裁剪,配置如下:

∙        11 GPCs, 64 TPCs, 2 SMs/TPC, 128 SMs

∙         128 FP32 CUDA Cores/SM, 16384 FP32 CUDA Cores per GPU

∙          4 forth-generation Tensor Cores/SM, 512 forth-generation Tensor Cores per full GPU

∙        5 HBM2 stacks, 10 512-bit memory controllers

∙        GDDR6X, 384-bit memory interface with 12 32-bit memory controller

GPC结构如果下图所示:

image.png

Ada架构每个GPC包含1Raster Engine(光栅化引擎),6TPC12SM16ROP(8 per ROP partition)

image.png

Ada架构每个 TPC 包含2 SM,每个 SM 包含 128 FP32 CUDA核心和64 INT32 CUDA核心(FP32Ampere2倍,INT32不变)、2FP64 CUDA核心(满足少量需要高精度的运算类型)、4个第四代Tensor核心、1个第三代RT核心。相比定位于数据中心计算的Hopper ,侧重于图形计算的Ada架构FP64核心数量大幅减少(上图因为数量太少并未画出),增加了一个RT核心。

如图所示,Ada SM 划分为4个处理块,每个处理块均包含32 FP32 CUDA核心、 16 INT32 CUDA核心、1 Tensor 核心、 1 个线程束调度器和 1 个分配单元。每个处理块还具有一个L0 指令缓存和一个 16 KB 寄存器堆。这四个处理块共享一个L1指令缓存,以及一个组合式的128 KB L1 数据缓存或共享内存,是Hopper GA100的一半。整个AD102L1缓存为18432KB,相比Ampere GA10210752KB提升了70%


带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(2):

https://developer.aliyun.com/article/1423693

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
4天前
|
Kubernetes 开发者 Docker
构建高效微服务架构:Docker与Kubernetes的协同应用
【5月更文挑战第30天】 在当今软件开发领域,微服务架构已成为实现系统模块化、提升可维护性及扩展性的关键策略。本文深入探讨了如何通过Docker容器化技术和Kubernetes集群管理,共同构建一个既高效又可靠的后端微服务环境。我们将剖析Docker和Kubernetes的核心功能,以及它们如何相辅相成,支撑起现代化的云原生应用程序部署和管理。文章还将提供具体实践案例,帮助开发者理解将理论应用于实际开发过程中的步骤和考虑因素。
|
3天前
|
Kubernetes Cloud Native 开发者
构建高效云原生应用:Kubernetes与微服务架构的融合
【5月更文挑战第31天】 在数字化转型和技术迭代的大潮中,企业对于敏捷、可扩展的IT基础设施需求日益增长。云原生技术以其独特的优势成为推动这一进程的关键力量。本文深入探讨了如何通过结合Kubernetes容器编排和微服务架构来构建和维护高效、可靠的云原生应用。我们将剖析这种技术整合的必要性,揭示其背后的原理,并讨论在实际部署过程中可能遇到的挑战及解决方案。通过案例分析和最佳实践的分享,旨在为开发者和架构师提供一套行之有效的云原生应用构建指南。
|
3天前
|
机器学习/深度学习 敏捷开发 人工智能
深入分析自动化测试中的挑战与机遇
【5月更文挑战第31天】 在软件开发的不断进步和迭代中,自动化测试作为提升效率、确保质量的重要手段,其地位愈发凸显。本文将深入探讨实施自动化测试过程中遭遇的技术挑战,如维护成本、复杂场景模拟等,并剖析其中的机遇,包括持续集成的协同优势和最新的AI辅助技术。通过具体案例分析和前沿技术趋势预测,旨在为软件测试工程师提供全面的视角,以应对未来自动化测试的发展需求。
|
3天前
|
监控 jenkins 测试技术
提升软件测试效率与准确性的策略分析
【5月更文挑战第31天】 在软件开发生命周期中,测试工作占据了举足轻重的地位。本文旨在探讨提高软件测试效率和准确性的有效策略。通过对自动化测试工具的选择、测试用例的优化设计、持续集成系统的整合以及性能测试的关键指标分析,本文提出了一系列创新的方法和实践建议。这些策略不仅能够减少人力资源消耗,还能显著提高软件产品的质量和稳定性。
|
3天前
|
敏捷开发 Kubernetes Cloud Native
构建高效云原生应用:容器化与微服务架构的融合
【5月更文挑战第31天】 随着云计算技术的不断演进,云原生应用已成为企业数字化转型的核心。本文深入探讨了如何通过容器化技术和微服务架构的有效结合,构建高效、弹性和可扩展的云原生应用。我们将分析容器化的基本概念、优势以及它如何促进微服务架构的实施,同时提供策略和最佳实践,帮助企业实现敏捷开发和持续部署,优化资源利用,并提高系统的可靠性。
|
4天前
|
Cloud Native 算法 程序员
代码与禅意:编程中的哲学思考构建未来:云原生架构在现代企业中的应用与挑战
【5月更文挑战第30天】 在数字世界的繁花似锦之下,编程不仅仅是一种技能,更是一场关于逻辑、美学和哲学的深刻对话。本文将探讨编程过程中所体现出的哲学理念,从禅宗的角度出发,揭示代码背后蕴含的深层次意义。我们将一同走进程序员的内心世界,体会在面对复杂问题时,如何通过冥想般的编码实践,达到问题解决的顿悟。
|
4天前
|
监控 测试技术
深入分析软件测试中的风险评估与管理
【5月更文挑战第30天】 在软件开发生命周期中,风险无处不在,特别是在软件测试阶段。本文旨在探讨软件测试过程中如何有效地进行风险评估和管理,以确保软件质量和项目成功。文中将介绍风险评估的基本概念,提出一个结构化的风险识别和评估框架,并详细讨论如何通过定性和定量方法来管理测试风险。此外,文章还将展示一个案例研究,以说明所提策略在实际中的应用效果。
|
4天前
|
消息中间件 弹性计算 监控
【Serverless架构组成及优势适用场景】
Serverless的弹性伸缩、按需计费、无状态等特性使得开发者能够更加专注于业务逻辑,摆脱繁琐的服务器管理。它的优势在于灵活应对突发性工作负载、降低成本、提高开发效率,尤其在事件驱动、微服务、后端API等场景中表现出色。虽然Serverless仍然在不断发展,但其已经在云计算领域掀起了一场革命,成为当今应用开发的热门选择。随着技术的不断演进,我们有理由期待Serverless将继续推动应用开发的创新,为我们构建更加高效、可靠的应用提供更多可能。
|
4天前
|
机器学习/深度学习 设计模式 计算机视觉
深度学习在图像识别中的应用与挑战构建高效微服务架构:后端开发的新范式
【5月更文挑战第30天】 随着计算机视觉技术的飞速发展,深度学习已成为推动该领域进步的关键力量。本文旨在探讨深度学习在图像识别任务中的核心技术和面临的挑战,通过分析卷积神经网络(CNN)的结构和优化策略,以及新兴的对抗性网络和迁移学习等技术,揭示深度学习如何提高图像识别的准确性和效率。同时,文章还将讨论数据偏差、模型泛化能力和计算资源限制等问题对实际应用的影响。 【5月更文挑战第30天】 在本文中,我们将探讨一种现代软件工程实践——微服务架构。通过分析其核心原则和设计模式,我们旨在为开发者提供一个关于如何构建可扩展、灵活且高效的后端系统的指导。文章将详细讨论微服务的优势,挑战以及如何克服这些
|
5天前
|
机器学习/深度学习 人工智能 测试技术
深入探究软件测试中的自动化边界值分析
【5月更文挑战第29天】随着软件开发的复杂性增加,确保产品质量的需求促使自动化测试成为核心实践。本文专注于自动化边界值分析的应用与效能,探讨其在提高测试效率和有效性方面的关键作用。通过引入先进的自动化工具和技术,文章揭示了如何优化测试用例设计,减少重复劳动,同时保持高水平的错误检测率。本研究不仅展示了自动化边界值分析在不同类型的软件测试场景中的应用,还讨论了实施过程中可能遇到的挑战及其解决方案。