深度学习使用GPU问题

简介: 深度学习使用GPU问题

什么是GPU


GPU,即“图形处理单元”,是仅用于特定任务计算机的微型版本。与CPU不同的是, 它可以同时执行多个任务。 GPU带有自己的处理器,该处理器嵌入与v-ram或video ram耦合的主板上,并且具有通风和冷却的散热设计。


f15bf4b01ee24874a5a05970efad622b.png


术语“图形处理单元”中的“图形”是指在二维或三维空间上的指定坐标处渲染图像。 视口,或视点,是观察者根据所使用的投影类型看物体的角度。 栅格化和光线跟踪是渲染3d场景的一些方法,这两个概念都是基于一种称为透视投影的投影类型。 那么什么是透视投影呢?


简而言之,透视投影是一种在视线或画布上形成图像的方法,其中平行线会聚到称为“投影中心”的会聚点,而且当对象从视点移开时,它看起来会变小。这正是我们的眼睛感受现实世界中的方式,帮助我们理解图像的深度。这也是它产生逼真的图像的原因。


为什么GPU更适合深度学习


GPU最大的特点是能够并行计算进程。 也是因为GPU的出现,有了并行计算这个概念。CPU通常按顺序方式完成其任务。 一个CPU可以有多个内核,每个内核一次承担一个任务。 假设一个CPU有2个内核,那么两个不同的任务流程可以在这两个内核上同时运行,从而实现多任务处理。


但是在每个内核上,这些过程仍然以串行方式执行。


CPU与GPU区别



如前所述,CPU被划分为多个内核,因此它们可以同时执行多个任务,而GPU拥有成千上万个内核,所有这些内核都专用于单个任务。 这些任务通常是执行一些简单且频繁的计算,并且彼此独立。 两者都将经常需要的数据存储到相应的缓存中,因此都遵循“位置参考”的原理。


在GPU市场中,有两个主要参与者,即AMD和Nvidia。 Nvidia GPU被广泛用于深度学习,因为它们在论坛软件,驱动程序,CUDA和cuDNN中具有广泛的支持。 因此就AI和深度学习而言,Nvidia长期以来一直占领先锋位置。


神经网络可并行化,这意味着神经网络中的计算可以轻松地并行执行,并且彼此独立。


什么是CUDA


CUDA代表“计算统一设备体系结构”。该体系结构于2007年推出,您可以通过这种方法实现并行计算,并以优化的方式充分利用GPU的性能,从而在执行任务时提高性能。

798c792b09e345ca8f70b302dfdec58d.png


CUDA工具包是一个完整的软件包,其中包含一个开发环境,该开发环境用于构建使用GPU的应用程序。


什么是TensorRT


TensorRT是NVIDIA推出的一个高性能的深度学习推理框架,可以让深度学习模型在NVIDIA GPU上实现低延迟,高吞吐量的部署。TensorRT支持Caffe,TensorFlow,Mxnet,Pytorch等主流深度学习框架。TensorRT是一个C++库,并且提供了C++ API和Python API,主要在NVIDIA GPU进行高性能的推理(Inference)加速。


c402487f281941f8842a130173f8ced0.png


如上图看到,我们训练的模型(trained Neural Network)导入到TensorRT进行一系列优化,比如:


TensorRT支持FP16和INT8的计算。我们知道深度学习在训练的时候一般是应用32位或者16位数据,TensorRT在优化的时候可以降低模型参数的位宽来进行低精度推理,以达到加速推断的目的,很像模型的压缩的量化方法

TensorRT对于网络结构进行重构,把一些能够合并的运算合并在了一起,针对GPU的特性做了优化。

kernel Auto-Tuning:分纵向融合和横向融合,纵向融合通过融合相同顺序的网络层来减少kernel launch,横向融合挖掘输入数据且filter大小相同但weights不同的层,对于这些网络层,使用一个kernel来提高加速。

去除掉网络concat层,通过预分配输出缓存以及跳跃式写入方式来避免这次转换

以下图网络优化前后为例:


b318443bfe1347ceab545fa97b70e779.png

如何在linux查看GPU利用率,与线程


回到深度学习训练中,因为深度学习通常需要大量的算力。因此通常会选择使用GPU服务器来完成模型的训练,预测,部署等等。


使用如下命令,可以查看自己GPU的使用情况,下图红色框为重要的信息


nvidia-smi


dbf8b85525c646049ec51854a0b8b5fc.png


参数 参数解释
GPU 本机编号
Fan 风扇转速给服务器散热的,N/A表示没有风扇
Name GPU类型
Temp GPU温度
Perf GPU的性能状态
Memory-Usage 显存使用率
Volatile GPU-Util GPU使用率


be6f48d8d2e6442590477854df2ad40c.png


Processes
PID 进程号
Process name 显存占用情况


持续观察GPU状态:nvidia-smi -l 秒数,


nvidia-smi -l 10


监控GPU写入到文件,指定需要的字段写入到文件中,通过这二种方法,可以实时查看自己的GPU使用情况,在训练模型时候,就能看到选择什么样的参数,训练,GPU情况。


nvidia-smi -l 1 --format=csv --filename=report.csv --query-gpu=timestamp,name,index,utilization.gpu,memory.total,memory.used,power.draw


参数 参数解释
-l 间隔几秒输出一条记录
-format 记录文件格式csv
-filename 记录文件名称
-query-gpu 需要记录那些信息到文件中
timestamp 时间戳
memory.total 显存使用情况
utilization.gpu GPU使用率
power.draw 显存功耗


在程序中我们模型训练预测,启动的py文件通常是一个进程,一个进程包含了许多的线程PID(包含读取数据,更参数等等)


程序中进程


查看进程,显示的名称就是运行的程序文件.py,以python

ps -ef |grep python
• 1


深度学习中那些参数影响GPU占用


深度学习中模型自身参数、优化器参数、模型的每层输入输出,都会占用GPU的资源,一般以每一批(batchsize)的数据传输到模型开始,模型进行训练,产出模型参数,和优化器占用GPU显存,模型越大,对应的参数就越多。


那模型的输入,第一层就会是我们自己的数据,比如做计算机视觉常用的图片

batch_size 就是让模型在训练过程中每次选择批量的数据来处理,

batchsize的大小一般是2的n次方


一次训练所选取的样本数,会占用GPU显存的,因此如果batch_size过大,一次传入训练的数据过多,GPU就会显存占用,显存利用率增大了,但是可能显存容量不足,因为显存还要保存此次batch_size训练模型的参数,优化器参数等等,以BERT模型为例就需要340M的空间来存储模型参数


fe781d8e0dfc4d12860a80e698aa3cde.png


显存占用=模型自身参数×n+batchsize×输出参数量×2+一个batch的输入数据(往往忽略)


模型训练时,GPU等待CPU传输数据过来,当从总线传输到GPU之后,GPU逐渐计算起来,利用率增高,但GPU算力很强大,很快就处理完传输来的数据,等待下一批batch数据传输,这时候就可以使用多线程传输数据。


另外在神经网络训练,Epoch、Iteration这二种参数也是非常重要的:


batchsize:批次大小,每次训练取训练集中一个批次进行训练

iteration:iteration表示迭代个数代表一个batchsize批次要训练几次,一个迭代=一次模型网络正向传递+一个次模型网络反向传递

epoch:epoch的个数代表整个训练集压要训练几次


c2afb1c0b5a14fd0967a408efeeed555.png

但在模型训练时经常会遇到一个问题,模型加载数据后,模型的训练时发生报错,这个时候,数据其实已经读入到线程中,GPU显存是被占用的,这个显存GPU自己是无法释放的,如果只是查询GPU信息的话(nvidia-smi),是无法查到这里因为报错卡在读取数据的线程的。


如何删除这些线程方法如下:


输入如下命令,可以查看GPU隐藏的线程:


fuser -v /dev/nvidia*


删除线程命令PID


kill -9 [PID]
• 1


🐻这里科普一下深度学习中,读数据的二种读取方式:


1687267264261.png

同步读取数据:也就是一个batchsize的数据,GPU要先读取完最后一张图片,才开始模型训练

异步读取数据:边读取一个batchsize过程中,读多少,就多少先拿去模型训练。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
25天前
|
机器学习/深度学习 并行计算 TensorFlow
TensorFlow与GPU加速:提升深度学习性能
【4月更文挑战第17天】本文介绍了TensorFlow如何利用GPU加速深度学习, GPU的并行处理能力适合处理深度学习中的矩阵运算,显著提升性能。TensorFlow通过CUDA和cuDNN库支持GPU,启用GPU只需简单代码。GPU加速能减少训练时间,使训练更大、更复杂的模型成为可能,但也需注意成本、内存限制和编程复杂性。随着技术发展,GPU将继续在深度学习中发挥关键作用,而更高效的硬件解决方案也将备受期待。
|
27天前
|
机器学习/深度学习 并行计算 算法框架/工具
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
115 3
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习与GPU集群的神奇结合
深度学习与GPU集群的神奇结合 随着人工智能的飞速发展,深度学习和神经网络已经成为了AI领域的热点。然而,你是否知道,为了让这些复杂模型运行得更加高效,有一种强大的工具不可或缺,那就是GPU。今天,我们就来揭开GPU与深度学习之间的神秘面纱。
44 1
|
5月前
|
机器学习/深度学习 自然语言处理 并行计算
GPU在深度学习中的应用
GPU在深度学习中的应用
|
6月前
|
机器学习/深度学习 网络协议 Docker
基于docker搭建conda深度学习环境(支持GPU加速)
在Ubuntu系统,创建一个docker,然后搭建conda深度学习环境,这样可以用conda或pip安装相关的依赖库了。
168 0
|
7月前
|
机器学习/深度学习 并行计算 安全
2023 年最佳多 GPU 深度学习系统指南
2023 年最佳多 GPU 深度学习系统指南
117 1
|
10月前
|
机器学习/深度学习 人工智能 Linux
Linux和Windows系统下安装深度学习框架所需支持:Anaconda、Paddlepaddle、Paddlenlp、pytorch,含GPU、CPU版本详细安装过程
Linux和Windows系统下安装深度学习框架所需支持:Anaconda、Paddlepaddle、Paddlenlp、pytorch,含GPU、CPU版本详细安装过程
Linux和Windows系统下安装深度学习框架所需支持:Anaconda、Paddlepaddle、Paddlenlp、pytorch,含GPU、CPU版本详细安装过程
|
3天前
|
机器学习/深度学习 边缘计算 算法
深度学习在图像识别中的应用与挑战
【5月更文挑战第9天】 随着人工智能技术的迅猛发展,深度学习已成为推动计算机视觉领域进步的关键力量。尤其是在图像识别任务中,深度神经网络通过模拟人脑的机制,显著提升了系统的准确率和鲁棒性。然而,尽管取得了显著成就,深度学习在图像识别应用中仍面临数据偏差、模型泛化能力不足以及计算资源密集等挑战。本文将探讨深度学习在图像识别领域的最新进展,分析其面临的主要技术和实践难题,并展望可能的解决方案。
|
1天前
|
机器学习/深度学习 存储 边缘计算
深度学习在图像识别中的应用与挑战
【5月更文挑战第11天】 随着计算机视觉技术的飞速发展,深度学习已成为推动图像识别领域进步的核心动力。本文将探讨深度学习在图像识别中的应用,并分析当前面临的主要挑战。通过梳理卷积神经网络(CNN)的发展历程、关键算法及其在不同场景下的应用案例,本文揭示了深度学习技术如何有效提升图像识别的准确性与效率。同时,针对数据偏差、模型泛化能力、计算资源限制等问题,文中提出了相应的解决策略和未来发展方向。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在许多领域都有广泛的应用
【5月更文挑战第11天】深度学习在许多领域都有广泛的应用
7 1