我的NVIDIA开发者之旅——优化显卡性能

简介: 我的NVIDIA开发者之旅——优化显卡性能

在我们购买任何一样东西时都是更具需求而决定的,买电脑也是,有时是为了办公,就买轻薄本;有些是为了玩游戏,就买游戏本。不同的需求会导致我们购买电脑的硬件有所不同,玩游戏最看重的是显卡,而专业用户此前更看重的可能是CPU。在深度学习训练模型的时候我们经常用GPU,也就是显卡来跑,你会发现用CPU要跑十几个小时的模型,GPU半个小时就完成了,但是还是有些想要更快点。当然,无论你是游戏还是训练模型,显卡的性能都是有极高的要求,那么如何优化NVIDIA显卡的性能呢?

下面我们来看一下如何优化显卡性能?


在电脑桌面单击鼠标右键,点击NVIDIA进入设置界面image.png


通过 《通过预览调整图像设置 》 选择 “使用高级3D图像”设置【默认是 由3D 引用程序决定(L)】image.png


通过 《管理3D设置》 你会发现有"全局设置"和 "程序设置"两个

其中 全局设置是在所有游戏和程序中都应用这个设置

程序设置是在定制的单个程序中应用这个设置


相当于: 全局设置就是编程中的全局变量,都能用

程序设置就是编程中的局部变量,只有内部可以使用image.pngimage.png




OpenGL 渲染 GPU选择自己电脑的显卡【此处我的是3060】image.png


关掉垂直同步 ,默认是使用3D程序设置

该选项可以消除图像“横移”,但是对硬件要求很高,一般建议“强行关闭”image.png



最大渲染:提前渲染后面的画面,体验感非常好,但是非常耗性能。相当于垂直同步,防止画面撕裂。但是想吃鸡这样的一般不建议开启。

开启条件:如果运行感觉画面不够流畅,或者偶尔出现卡顿的情况。可以将这个数值调大一些。然后在进入游戏,卡顿的问题会有明显的改善,画面会平滑很多。最大预渲染帧数,就是让CPU分担一下GPU的工作,帮助其提前预处理一些帧,这样在使用时可以减少GPU的处理时间。

建议选择1 ,也就是不渲染下面的。下面的虚拟现实预渲染帧数也是一样的,建议为1

最后要点击应用才能生效。image.png



到这就差不多了,画质没有多少损失,但是帧率提上去了。感觉更稳定,更顺滑。


最后再送三个提高显卡性能方法:


方法一:物理加速,又称为PhysX加速设置

物理加速是NVIDIA一项利用显卡加速系统性能的技术。NVIDIA的物理加速,我尝试过,打开物理加速的确比打开之前性能优化的不是一点点。

打开方法:桌面右击鼠标点击NVIDIA进入设置界面,在显卡控制面板中有专 门 的“设置PhysX配置”选项,默认是自动选择,选择自己的显卡,就强制系统在游戏中使用显卡进行物理加速(PhysX)。


方法二:更新驱动

显卡才上市的驱动一般都不是最优的,一般会逐步完善,所以更新显卡驱动一般都会提升系统性能。一般安装总会出现一些问题,有时候卸载了还不行,这时候一般就是注册表问题,建议卸载旧的显卡驱动后使用系统清理工具清理垃圾和注册表 ,此处推荐使用火绒,干净免费。


方法三:显卡CUDA加速

NVIDIA公司开发的并行计算架构CUDA技术,利用GPU的并行处理能力,大幅提升系统科学计算性能。显卡性能越强,CUDA加速越好。CUDA技术,现在广泛用于个个方面。而与日常应用最多的就是视频转码。目前,绝大部分视频转码软件都支持CUDA加速技术,MediaCoder就是其中之一。MediaCoder打开CUDA转码非常简单,只要在视频栏目把编码器点选GPU,软件就会自动检测显卡加速。




相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
8月前
|
人工智能 弹性计算 并行计算
单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎
单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎
355 0
|
2月前
|
机器学习/深度学习 存储 算法
【GPU】深入理解GPU硬件架构及运行机制
【GPU】深入理解GPU硬件架构及运行机制
145 0
|
3月前
|
机器学习/深度学习 人工智能 并行计算
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择,含架构技术和性能对比带你解决疑惑
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择,含架构技术和性能对比带你解决疑惑
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择,含架构技术和性能对比带你解决疑惑
|
编解码 Ubuntu 前端开发
我的NVIDIA开发者之旅——作为一名初学者,我是如何开启 NVIDIA Jetson Nano 开发的
在本文中,我将展示如何从一个初学者角度,使用 NVIDIA Jetson Nano 。 你也可以参考官方教程。 如果你想跟着我一起做,那么接下来的内容比会比较花费时间,需要你耐心跟着往下做。😎
820 0
我的NVIDIA开发者之旅——作为一名初学者,我是如何开启 NVIDIA Jetson Nano 开发的
|
机器学习/深度学习 并行计算 算法
嵌入式 GPU 平台部署
近些年来,随着计算能力的大幅提升,深度学习网络得以快速的发展,已经被广泛应用于语音识别、计算机视觉、自然语言处理等研究。为了提取更加有效的特征,深度学习网络的层数增长较快,并且具有计算量大、参数多的特点,需要高性能的GPU等设备为其提供算力的支持。另一方面,随着无人机、机器人、智能手机等嵌入式或移动设备的快速发展,在这些设备上部署深度学习网络的需求也变得更加强烈。然而这些实时应用平台上的资源(例如存储、计算以及电池功率等)都非常有限,因此在这些平台上加速与优化深度学习网络变成了学术界和工业界共同关注的研究课题。
418 0
嵌入式 GPU 平台部署
|
人工智能 并行计算 Ubuntu
英伟达正式宣布开源 GPU 内核模块代码
近日,英伟达(NVIDIA)宣布,将 Linux GPU 内核模块作为开放源代码发布。早在几天前,NVIDIA 开始在 GitHub 上陆续公开相关代码,目前该项目已经收获 7.7k star,众多网友对本次开源纷纷表示难以置信。
284 0
英伟达正式宣布开源 GPU 内核模块代码
|
机器学习/深度学习 存储 人工智能
如何让Transformer在GPU上跑得更快?快手:需要GPU底层优化
Transformer 对计算和存储的高要求阻碍了其在 GPU 上的大规模部署。在本文中,来自快手异构计算团队的研究者分享了如何在 GPU 上实现基于 Transformer 架构的 AI 模型的极限加速,介绍了算子融合重构、混合精度量化、先进内存管理、Input Padding 移除以及 GEMM 配置等优化方法。
1107 0
如何让Transformer在GPU上跑得更快?快手:需要GPU底层优化