写在最前面
Ubuntu 18.04 + CUDA 11.3.0 + CUDNN 8.2.1 + Anaconda + Pytorch 1.10
不需要有外网,也不需要虚拟机的图形化界面
下载安装都是本机去阿里镜像网站下载whl,然后通过xftp传输,失败率降到最低
若报错,可参考完整流程:https://blog.csdn.net/wtyuong/article/details/127877543
参考
https://blog.csdn.net/TU_Dresden/article/details/121049141
https://blog.csdn.net/weixin_43491255/article/details/118549032
https://blog.csdn.net/a563562675/article/details/119458550
https://blog.csdn.net/a563562675/article/details/119458550
https://blog.csdn.net/qq_44315987/article/details/106314054
(下面这个链接内含各种报错)
https://blog.csdn.net/Williamcsj/article/details/123523087
https://blog.csdn.net/A496608119/article/details/123455529
https://blog.csdn.net/qq_51570094/article/details/124148671
Xshell常用命令
Ctrl + Shift 复制
Insert + Shift 粘贴
Ubantu
Ctrl+Alt+T打开终端
检查系统的各项配置
查看ubuntu系统的版本信息和gcc版本
cat /proc/version
Linux version 5.4.0-131-generic (buildd@lcy02-amd64-092) linux内核版本号
gcc version 7.5.0 gcc编译器版本号7.5
Ubuntu 7.5.0-3ubuntu1~18.04 Ubuntu版本号18.04
查看Linux的内核版本和系统是多少位的
uname -a
显示正在使用的内核为5.4.0-131-generic。
X86_64代表系统是64位的。
验证机器是否具有n卡
lspci | grep -i nvidia
验证内核
sudo apt-get install linux-headers-$(uname -r)
查看原有的显卡版本和CUDA支持(如果安装了跳过安装显卡nvidia)
nvidia-smi
各种配置(建议不要省略)
安装vim
sudo apt-get install vim
增加pip镜像源
安装pip
apt install pip
检查pip源
pip config list
增加镜像源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simpleWriting
禁用nouveau
sudo vim /etc/modprobe.d/blacklist.conf
打开上述文档添加这两行保存
blacklist nouveau options nouveau modeset=0
刷新
sudo update-initramfs -u
重启电脑,一定要重启。
sudo reboot
然后输入这个命令
lsmod | grep nouveau
如果啥也没输出,就是成功关闭了。
开启SSH服务
https://blog.csdn.net/qq_42130526/article/details/119972366
检查是否开启SSH服务
因为Ubuntu默认是不安装SSH服务的,所以在安装之前可以查看目前系统是否安装,通过以下命令:
ps -e |grep ssh
输出的结果ssh-agent表示ssh-client启动,sshd表示ssh-server启动。我们是需要安装服务端所以应该看是否有sshd,如果没有则说明没有安装。
启动SSH服务
sudo /etc/init.d/ssh start
安装显卡驱动
卸载显卡驱动
sudo apt-get remove --purge nvidia* sudo apt autoremove
安装显卡驱动
加入PPA,然后更新库
sudo apt-get update sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt-get update
直接装系统推荐显卡驱动,出错几率小(但需要注意:cuda11.3要求465以上!!!)
会自动安装推荐的版本(一般是最高的版本)
sudo ubuntu-drivers autoinstall
报警告且不动时,再等一会就开始自己安装了
警告类似于:
WARNING:root:_pkg_get_support nvidia-driver-510-server: package has invalid Support n model
最后的界面显示
测试安装状态
查看状态后需要重启!!!
sudo reboot
使用nvidia-smi 查看是否已经读取到安装的驱动,如果提示没有找到命令重启后再试
nvidia-smi
会出现显卡版本和CUDA支持
例子:
| NVIDIA-SMI 430.26 Driver Version: 430.26 CUDA Version: 10.2 |
这个表示:显卡P106-100,显存6G,驱动430.26,CUDA10.2
CUDA
选择
下载前仔细看这张图
Table 1. CUDA Toolkit and Compatible Driver Versions CUDA Toolkit Linux x86_64 Driver Version Windows x86_64 Driver Version CUDA 10.2.89 >= 440.33 >= 441.22 CUDA 10.1 (10.1.105 general release, and updates) >= 418.39 >= 418.96 CUDA 10.0.130 >= 410.48 >= 411.31 CUDA 9.2 (9.2.148 Update 1) >= 396.37 >= 398.26 CUDA 9.2 (9.2.88) >= 396.26 >= 397.44 CUDA 9.1 (9.1.85) >= 390.46 >= 391.29 CUDA 9.0 (9.0.76) >= 384.81 >= 385.54 CUDA 8.0 (8.0.61 GA2) >= 375.26 >= 376.51 CUDA 8.0 (8.0.44) >= 367.48 >= 369.30 CUDA 7.5 (7.5.16) >= 352.31 >= 353.66 CUDA 7.0 (7.0.28) >= 346.46 >= 347.62
上图给出了不同版本所要求的的最低驱动要求,尽量选择相同的进行安装。
编译cuda samples会报错,例如 chrono模块、gcc版本过高等提示。
与之前的gcc版本进行比对
gcc --version
cuda的gcc依赖版本在官方文档的安装指南上会给出
我是Ubuntu18.04.6,gcc7.5.0
下载+安装
进入官网
https://developer.nvidia.com/cuda-toolkit-archive
普通机器:x86_64 服务器 power architecture
选择需要的CUDA安装包(runfile格式)
可以创建一个文件夹保存下载的文件,然后在终端切换到那个目录下,进行相应的命令行 (如下图末尾箭头所指)
一定要注意版本!!!
网上推荐CUDA 11.3.0 + CUDNN 8.2.1 + Pytorch 1.10
这三者的组合非常麻烦,这套亲测成功,别的搭配不敢保证。
例子:
实际:
不用wget下载,容易因为网不好报错
下载axel + 将com改为cn
Tensorflow官网下载东西也是无法直接访问的,但是可以通过镜像访问。微软的官网直接访问速度很慢,可是把网站的后缀.com改成.cn后速度就很快了。
访问确实快了,但是下载的连接改为cn后是404页面,需要进一步操作
参考:https://blog.csdn.net/yxt916/article/details/109402650
1.下载axel(wget的哥哥):
终端输入:
sudo apt install -y axel
2.看图,复制底下的下载链接:(以下是cuda11.3.0的下载链接,做个示范,你需要复制对应自己的)
http://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
3.把.com改成.cn,使用axel下载cuda11.1:
终端输入:
axel -n 50 http://developer.download.nvidia.cn/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
(注意这里网址里的.com已经改成了.cn)(具体参数 -n 50作用:狡兔50窟)
效果:不断线,不降速,已经是成了
执行结束
sudo sh cuda_11.3.0_465.19.01_linux.run
上述命令执行结束出现一个框
通过方向键下移光标,选择continue
打字输入accept
然后就是下面这个了
由于已经安装了驱动 按方向键,使得光标在driver上,再按回车,之后通过方向键使光标移动到install
此时下图里需要将第一行的Driver CUDA 11.0去掉。(注意:回车键作用是将 [X] 就会变成[ ],[X]代表有,[ ]代表无)
应该将[X] 就会变成[ ]
成功了
配置环境
装好之后打开环境变量
vim ~/.bashrc
i键进入编辑模式,esc退出,写:wq保存退出
加入这两行保存,注意我这里是11.3,你如果是别的版本,要改成自己的
export PATH="/usr/local/cuda-11.3/bin:$PATH" export LD_LIBRARY_PATH="/usr/lcoal/cuda-11.3/lib64:$LD_LIBRARY_PATH"
刷新环境变量生效
source ~/.bashrc