🥇 版权: 本文由【墨理学AI】原创、各位大佬、欢迎和墨理一起学AI
🎉 # 深度学习模型训练基础环境搭建相关教程————❤️ 不负光阴不负卿 ❤️
📘 查看服务器显卡使用情况
一、命令行运行python程序时
- 首先查看哪些GPU空闲,nvidia-smi显示当前GPU使用情况
nvidia-smi
- 如下图所示:服务器中的两个显卡,编号为0、1 . 都被同一个进程 PID 3016 占用
图示基础信息
GPU:GPU 编号;
Name:GPU 型号;
Persistence-M:持续模式的状态。持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态;
Fan:风扇转速,从0到100%之间变动;
Temp:温度,单位是摄氏度;
Perf:性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能(即 GPU 未工作时为P0,达到最大工作限度时为P12)。
Pwr:Usage/Cap:能耗;
Memory Usage:显存使用率;
Bus-Id:涉及GPU总线的东西
Disp.A:Display Active,表示GPU的显示是否初始化;
Volatile GPU-Util:浮动的GPU利用率;
Uncorr. ECC:Error Correcting Code,错误检查与纠正;
Compute M:compute mode,计算模式
📘 指定空闲的GPU运行python程序
CUDA_VISIBLE_DEVICES=0,1 python test.py
📘 在python程序中指定GPU(通常使用该设置)
在 train.py 最上方,设定使用的GPU 编号, 当这两行代码注释掉时,训练会自动使用该服务器的所有资源
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"
每 10s 显示一次GPU使用情况, Xshell 中 CTRL + C 中止:
watch -n 10 nvidia-smi
每 2s 刷新一次GPU使用情况, Xshell 或者 Shell 窗口 中 CTRL + C 中止:
nvidia-smi -l 2
查看 CPU 内存大小
free -g (单位是 G) free -m (单位是 Mb)
free -g
total used free shared buff/cache available
Mem: 31 26 0 0 4 3
Swap: 7 5 2
free -m
total used free shared buff/cache available
Mem: 32070 27114 751 656 4204 3837
Swap: 8191 5541 2650
free -h
free -h
total used free shared buff/cache available
Mem: 125G 32G 874M 2.8G 92G 89G
Swap: 8.0G 1.0G 7.0G
查看 CPU 核数
cat /proc/cpuinfo | grep "cpu cores" | uniq
cpu cores : 8
查看 CPU 型号
cat /proc/cpuinfo | grep 'model name' |uniq
model name : Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz
📘 更多有效教程
此次博文内容难以 以偏概全,如有不恰当的地方,欢迎评论区批评指正对于即将入行计算机视觉的小伙伴,墨理这里推荐收藏的干货博文目前如下
# 深度学习模型训练基础环境搭建相关教程————认真帮大家整理了
🚀🚀 墨理学AI
🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
❤️ 如果文章对你有帮助、 点赞、评论鼓励博主的每一分认真创作