NVIDIA显卡性能靠频率?GPU Boost是怎么回事?

简介:

影响显卡性能的不外乎架构、工艺这些大方向,不过今天我们这篇超能课堂要关注的不是AMD、NVIDIA显卡架构设计导致的差异,直接影响显卡性能的还有频率这个指标,这次我们来看看AMD、NVIDIA过去几年中不同显卡在频率上有什么差别了。

GPU Boost:动态调节GPU频率

集成电路芯片通常都是固定(最高)频率运行的,这样做其实并不灵活,理想情况应该是频率根据需要调整,这种频率动态调节技术说起来也不新鲜了,Intel处理器所用的Turbo Boost就是频率动态调节技术,我们之前也做过详细介绍,可以参考下。

  NVIDIA的GPU Boost技术不仅可以用于游戏卡,专业卡上也有应用

在GPU上,NVIDIA最先在Kepler架构的GTX 680显卡引入了GPU Boost加速技术,随后在GTX 700系列显卡上发展到了GPU Boost 2.0,而在最新的GTX 1080显卡上推出了GPU Boost 3.0加速技术。此外,该加速技术也不只是GeForce专享,在NVIDIA的Tesla等专业卡上也应用了GPU Boost技术以提高性能,而且部分场合中对性能的提升还是非常明显的,官方表示有40-50%。

实现GPU加速并不是把频率调高调低这么简单,它需要GPU根据当前的使用情况——功耗、温度、电压、转速等多方因素作出抉择,尽可能提高显卡频率以提升性能,而在不需要高性能的情况下则会降低频率以节能。

  功耗是影响GPU加速的一个关键因素

GPU Boost 1.0的算法

在GTX 680显卡上,NVIDIA推出了GPU Boost 1.0加速技术,影响频率提升的主要因素就是显卡TDP功耗,GPU会根据显卡当前的状态来管理频率加速状态。

GPU Boost 2.0把显卡温度也考虑进去了

到了GTX 700系列及GTX Titan显卡上,NVIDIA推出了GPU Boost 2.0技术,与第一代显卡它要考虑的因素更多,不光是功耗,还有显卡的温度,也就是说GPU加速频率要照顾到功耗及温度两方面,不会为了性能而让温度超标,这样可以不仅可以提高性能,也不会导致温度失控进而导致风扇转速飙升,带来额外的噪音。

在我们的测试中,NVIDIA显卡自GTX 700之后温度上限多控制在80-83癈左右,这其中就有GPU Boost技术的考虑。

  GPU Boost 3.0加速

无论GPU Boost 1.0还是GPU Boost 2.0,GPU频率增加的步进都是固定的(之前做过测试,大约是13MHz一个GPU Offset),而在GTX 1080显卡上,NVIDIA又带来了GPU Boost 3.0技术,它的一个关键改变就是Offset频率不再固定,每个电压点都有对应的频率Offset,这样做的一个好处就是GPU实际加速频率可以更接近理论值。

AMD这边对GPU加速技术似乎并不热心,HD 7970最高频率就是925MHz,之后在HD 7970 GHz显卡上AMD也带来了动态频率调节技术,基础频率1000MHz,加速频率1050MHz。不过之后的AMD显卡频率虽然也变成了动态调节的了,但AMD的加速做法不太一样,官方公布的频率实际上是最高频率,而支持GPU Boost加速技术的NVIDIA显卡公布的频率实际上是显卡最低频率,二者主要的区别可以参考下面的表格:

  AMD、NVIDIA最近几代显卡的基础及加速频率

从这张图中我们可以看到,AMD这几代旗舰显卡的频率一直徘徊在1000MHz左右,28nm工艺下升级过的几代显卡都是如此,NVIDIA的显卡有大小两种核心,大核心的GK110、GM200频率设定比较低,小核心的GK104、GM204就高一些,加速频率可达1.2GHz(非公版上1.3GHz甚至1.4GHz也很轻松),这要比AMD显卡高得多。

到了16/14nm工艺时代,双方在频率上都会提升,但NVIDIA显卡明显更激进一些,GTX 1080显卡基础频率1607MHz,加速频率1733Mhz,仅频率方面就比前代GTX 980提升了40%,这也是GTX 1080显卡性能比后者大幅提升的一个重要原因。

  公版GTX 1080显卡日常应用加速频率实际上可以达到1797MHz

NVIDIA Pascal显卡的实际运行频率其实比标称的加速频率还要高很多,GTX 1080显卡在游戏应用中加速频率实际上可达1797Mhz,之前测过的非公版GTX 1080显卡更夸张,游戏中甚至可以稳定在1.9-1.95GHz之间,要比官方宣称的加速频率高很多。

AMD的RX 480显卡频率比前代也有提升,此前曝光的信息显示加速频率可达1266MHz,预售页面上标的参数是1288MHz。不过,与NVIDIA Pascal显卡相比,Polaris显卡相比,AMD显卡的频率还是更加保守一些,并没有N卡这么疯狂。

总的来说,AMD、NVIDIA两家公司的GPU因为架构及厂商衡量的标准不同,频率上确实存在很大差异,这不会是单纯的技术原因,也不会是简单的市场原因,特别是在Polaris及Pascal显卡上,AMD、NVIDIA双方选择了不同的代工厂,前者是三星/GF系的14nm FinFET LPP工艺,后者是TSMC的16nm FinFET Plus工艺,这对显卡的性能也会有一定影响。

另一方面,频率的设定不仅影响性能,还会影响显卡的超频潜力,NVIDIA的Pascal显卡自身的频率已经很高,虽然非公版大都可以突破2GHz,但与显卡加速频率相比,超频带来的性能增幅越来越小。AMD这边因为没有多少实测,超频潜力还不好说,不过看到有爆料称AMD会提供新超频工具,RX 480显卡已经超频到1600MHz了,如果是这样,那么在超频这点上,AMD显卡留给用户的空间更大。
本文转自d1net(转载)

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
2月前
|
存储 并行计算 调度
迈向可编程观测:在GPU Kernel中构建类eBPF风格的性能探针
本文旨在梳理作者学习路径,带领读者共同探索 GPU Kernel 性能分析从宏观到微观的技术演进。
654 24
迈向可编程观测:在GPU Kernel中构建类eBPF风格的性能探针
|
3月前
|
存储 机器学习/深度学习 人工智能
GPU云存储性能:加速AI与高性能计算的关键
在人工智能(AI)、机器学习(ML)和高性能计算(HPC)飞速发展的今天,数据存储和处理的效率已成为决定项目成败的关键因素。传统的云存储方案往往无法满足GPU密集型工作负载的需求,而GPU云存储性能的优化正成为企业提升计算效率、降低延迟的核心突破口。本文将深入探讨GPU云存储性能的重要性、关键技术及优化策略,助您在数据驱动的竞争中占据先机。
|
7月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
3883 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
6月前
|
机器学习/深度学习 存储 人工智能
阿里云GPU服务器gn6v、gn7i、gn6i性能特点、区别及选择参考
阿里云GPU云服务器产品线凭借其强大的计算能力和广泛的应用价值,在这些领域中发挥着举足轻重的作用。阿里云GPU云服务器能够为各类复杂的计算任务提供高效、稳定的计算支持,助力企业和开发者在技术创新和业务拓展的道路上加速前行。本文将详细介绍阿里云GPU云服务器中的gn6v、gn7i、gn6i三个实例规格族的性能特点、区别及选择参考,帮助用户根据自身需求选择合适的GPU云服务器实例。
837 60
|
6月前
|
Kubernetes 调度 异构计算
一文搞懂 GPU 共享方案: NVIDIA Time Slicing
本文主要分享 GPU 共享方案,包括如何安装、配置以及使用,最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享一块物理 GPU,以提升资源利用率。
327 11
|
8月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
712 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
8月前
|
人工智能 负载均衡 调度
COMET:字节跳动开源MoE训练加速神器,单层1.96倍性能提升,节省百万GPU小时
COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,通过细粒度的计算-通信重叠技术,显著提升分布式训练效率,支持多种并行策略和大规模集群部署。
444 9
|
测试技术 异构计算
|
机器学习/深度学习 测试技术 PyTorch
深度学习之测量GPU性能的方式
在深度学习中,测量GPU性能是一个多方面的任务,涉及运行时间、吞吐量、GPU利用率、内存使用情况、计算能力、端到端性能测试、显存带宽、框架自带性能工具和基准测试工具等多种方法。通过综合使用这些方法,可以全面评估和优化GPU的性能,提升深度学习任务的效率和效果。
979 5
|
人工智能 弹性计算 编解码
阿里云GPU云服务器性能、应用场景及收费标准和活动价格参考
GPU云服务器作为阿里云提供的一种高性能计算服务,通过结合GPU与CPU的计算能力,为用户在人工智能、高性能计算等领域提供了强大的支持。其具备覆盖范围广、超强计算能力、网络性能出色等优势,且计费方式灵活多样,能够满足不同用户的需求。目前用户购买阿里云gpu云服务器gn5 规格族(P100-16G)、gn6i 规格族(T4-16G)、gn6v 规格族(V100-16G)有优惠,本文为大家详细介绍阿里云gpu云服务器的相关性能及收费标准与最新活动价格情况,以供参考和选择。

热门文章

最新文章