Xshell远程连接配置 Ubuntu 18.04.6 + Anaconda + CUDA + Cudnn + Pytorch（GPU+CPU）（上）-阿里云开发者社区

写在最前面

是我，那个会遇到各种报错的小雨

为了少遇到一些报错，这次看了八篇帖子，并且尽量将命令都理解了，结果还是遇到各种没看到过的报错。。。。感谢互联网的各位大佬，各种犄角格拉的错误都能被百度到（抱拳

因此这篇文章是两万字保姆级的安装配置（可以先根据需要结合目录跳着看，我回头整理一份一遍过教程）

亲测有效，有图有真相：

pytorch1.12_gpu

pytorch11.3_cpu

参考

https://blog.csdn.net/TU_Dresden/article/details/121049141

https://blog.csdn.net/weixin_43491255/article/details/118549032

https://blog.csdn.net/a563562675/article/details/119458550

https://blog.csdn.net/qq_44315987/article/details/106314054

（下面这个链接内含各种报错）

https://blog.csdn.net/Williamcsj/article/details/123523087

https://blog.csdn.net/A496608119/article/details/123455529

https://blog.csdn.net/qq_51570094/article/details/124148671

Xshell常用命令

Ctrl + Shift 复制

Insert + Shift 粘贴

Ubantu

Ctrl+Alt+T打开终端

检查系统的各项配置

查看ubuntu系统的版本信息

cat /proc/version

Linux version 5.4.0-131-generic (buildd@lcy02-amd64-092) linux内核版本号

gcc version 7.5.0 gcc编译器版本号

Ubuntu 7.5.0-3ubuntu1~18.04 Ubuntu版本号

查看Linux的内核版本和系统是多少位的

查看已安装内核

dpkg --get-selections |grep linux-image

查看正在使用的内核

uname -a

显示正在使用的内核为5.4.0-131-generic。

X86_64代表系统是64位的。

Ubuntu版本

lsb_release -a

Distributor ID: Ubuntu //类别是ubuntu Description: Ubuntu 18.04.6 LTS //18年4月6月发布的稳定版本，LTS是Long Term Support：长时间支持版本三年，一般是18个月

Release: 18.04 //发行日期或者是发行版本号 Codename: bionic //ubuntu的代号名称

各种验证

验证机器是否具有n卡

lspci | grep -i nvidia

gcc验证

gcc --version

7.5.0

验证内核

sudo apt-get install linux-headers-$(uname -r)

查看原有的显卡版本和CUDA支持

nvidia-smi

禁用nouveau

sudo gedit /etc/modprobe.d/blacklist.conf

vim

打开上述文档添加这两行保存

blacklist nouveau
options nouveau modeset=0

刷新

sudo update-initramfs -u

重启电脑，一定要重启。

sudo reboot

然后输入这个命令

lsmod | grep nouveau

如果啥也没输出，就是成功关闭了。

cd /lib/firmware/rtl_nic/
sudo wget https://git.kernel.org/pub/scm/linux/kernel/git/firmware/linux-firmware.git/tree/rtl_nic/rtl8125a-3.fw

安装显卡驱动

卸载显卡驱动

sudo apt-get remove --purge nvidia*
sudo apt autoremove

安装显卡驱动

加入PPA，然后更新库

sudo apt-get update
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update

方法一：直接装系统推荐显卡驱动，出错几率小（但需要注意：cuda11.3要求465以上！！！）

会自动安装推荐的版本（一般是最高的版本）

sudo ubuntu-drivers autoinstall

报警告且不动时，再等一会就开始自己安装了

警告类似于：

WARNING:root:_pkg_get_support nvidia-driver-510-server: package has invalid Support n model

最后的界面显示

方法二：人工查看并选择适合本机的nvidia驱动

查看适合本机的nvidia驱动

ubuntu-drivers devices

有的小伙伴到这里会发现推荐的驱动基本都是no-free

那么进行下面命令，如果有那就跳过

sudo add-apt-repository ppa：graphics-drivers/ppa
sudo apt-get update
更新完后就重新 ubuntu-drivers devices
就会有推荐的免费版本了

选择合适自己的版本，具体情况看你的推荐

根据下列结果，这里 nvidia-driver-465 为推荐驱动安装版本（注意cuda11.3要求465以上！！！）

sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime

查看安装状态

查看状态后需要重启！！！要不然会报错

sudo reboot

使用nvidia-smi 查看是否已经读取到安装的驱动，如果提示没有找到命令重启后再试

nvidia-smi

会出现显卡版本和CUDA支持

例子：

| NVIDIA-SMI 430.26 Driver Version: 430.26 CUDA Version: 10.2 |

这个表示：显卡P106-100，显存6G，驱动430.26，CUDA10.2

错误处理

1

如果出现NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 需要手动关闭BIOS的安全模式。

2

如果安装 nvidia-driver-410 或以上版本提示 packages 无法安装，请执行以下步骤：

移除已添加的 PPA

sudo apt-add-repository -r ppa:graphics-drivers/ppa

更新 apt

sudo apt update

移除 NVIDIA 显卡驱动文件

sudo apt remove nvidia*

执行自动清理

sudo apt autoremove

然后重新回到本文初步骤重新安装

第一次尝试时，它报错了

however，它报错了

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the lat

先尝试重启

sudo reboot

然后服务器挂了。。。连接不上了

属于服务器重启后，无法被远程连接

参考：https://blog.csdn.net/GX_1_11_real/article/details/80925900

排查：

【1】确定是否是本地的问题，即执行远程的主机的问题

连接同一vpn下，另一台服务器

所以不是本机电脑配置的问题

【2】确认是否重启服务器的问题

好吧，那台服务器可能有问题。

服务器重新挂起后就能连接了，然后驱动也有了，果然是没重启的原因。。。。

（不是这个原因）内核版本更新的问题，导致新版本内核和原来显卡驱动不匹配

https://blog.csdn.net/xiaojinger_123/article/details/121161446

之前看过，正在使用的内核为5.4.0-131-generic。

在上面命令行中找到对应的版本，安装nvidia驱动时记下了当时的内核版本为5.4.0-131-generic。

所以应该不是这个问题

CUDA

选择

下载前仔细看这张图

Table 1. CUDA Toolkit and Compatible Driver Versions
CUDA Toolkit  Linux x86_64 Driver Version Windows x86_64 Driver Version
CUDA 10.2.89  >= 440.33 >= 441.22
CUDA 10.1 (10.1.105 general release, and updates) >= 418.39 >= 418.96
CUDA 10.0.130 >= 410.48 >= 411.31
CUDA 9.2 (9.2.148 Update 1) >= 396.37 >= 398.26
CUDA 9.2 (9.2.88) >= 396.26 >= 397.44
CUDA 9.1 (9.1.85) >= 390.46 >= 391.29
CUDA 9.0 (9.0.76) >= 384.81 >= 385.54
CUDA 8.0 (8.0.61 GA2) >= 375.26 >= 376.51
CUDA 8.0 (8.0.44) >= 367.48 >= 369.30
CUDA 7.5 (7.5.16) >= 352.31 >= 353.66
CUDA 7.0 (7.0.28) >= 346.46 >= 347.62

上图给出了不同版本所要求的的最低驱动要求，尽量选择相同的进行安装。

编译cuda samples会报错，例如 chrono模块、gcc版本过高等提示。

与之前的gcc版本进行比对

gcc --version

cuda的gcc依赖版本在官方文档的安装指南上会给出

我是Ubuntu18.04.6，gcc7.5.0

第一步，如果版本和cuda依赖gcc不对应，就安装cuda需要的版本

sudo apt-get install gcc-7.0
sudo apt-get install g++-7.0

第二步，配置gcc版本的优先级。默认使用的gcc版本为优先级最高的。设置gcc 10优先级为100，设置gcc 7优先级为70。那么默认使用gcc10。

sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 100
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-7 100

第三步，切换需要的gcc版本，命令为sudo update-alternatives --config gcc，默认是0选项。输入需要的gcc版本序号后，即可成功切换。

sudo update-alternatives --config gcc
  选择       路径          优先级  状态
------------------------------------------------------------
* 0            /usr/bin/gcc-9   50        自动模式
  1            /usr/bin/g++-9   50        手动模式
  2            /usr/bin/gcc-7   50        手动模式

输入前面显示的编号即可

下载+安装

进入官网

https://developer.nvidia.com/cuda-toolkit-archive

普通机器：x86_64 服务器 power architecture

选择需要的CUDA安装包（runfile格式）

可以创建一个文件夹保存下载的文件，然后在终端切换到那个目录下，进行相应的命令行（如下图末尾箭头所指）

一定要注意版本！！！

网上推荐CUDA 11.3.0 + CUDNN 8.2.1 + Pytorch 1.10

这三者的组合非常麻烦，这套那位博主亲测成功，别的搭配不敢保证。

例子：

实际：

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

然后报错了、无语这都能报错。。。。

报错：wget提示无法建立ssl连接

参考1：开启SSH服务

https://blog.csdn.net/qq_42130526/article/details/119972366

检查是否开启SSH服务

因为Ubuntu默认是不安装SSH服务的，所以在安装之前可以查看目前系统是否安装，通过以下命令：

ps -e |grep ssh

输出的结果ssh-agent表示ssh-client启动，sshd表示ssh-server启动。我们是需要安装服务端所以应该看是否有sshd，如果没有则说明没有安装。

启动SSH服务

sudo /etc/init.d/ssh start

参考2:在网址后面加上–no-check-certificate

https://blog.csdn.net/qq_38883271/article/details/116278157

在网址后面加上–no-check-certificate，例如：

wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run --no-check-certificate

原因：wget在使用https协议时会验证网站证书，而证书会经常失效，加上–no-check-certificate忽略验证证书的步骤。

参考三：把https修改为http地址

参考：

https://blog.csdn.net/qq_28887735/article/details/81842592

wget http://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run --no-check-certificate

新的报错

已发出 HTTP 请求，正在等待回应…

读取文件头错误 (连接被对方重设)。

重试中。

下载axel + 将com改为cn

Tensorflow官网下载东西也是无法直接访问的，但是可以通过镜像访问。微软的官网直接访问速度很慢，可是把网站的后缀.com改成.cn后速度就很快了。

访问确实快了，但是下载的连接改为cn后是404页面，需要进一步操作

参考：https://blog.csdn.net/yxt916/article/details/109402650

1.下载axel(wget的哥哥)：

终端输入：

sudo apt install -y axel

2.看图，复制底下的下载链接：(以下是cuda11.3.0的下载链接，做个示范，你需要复制对应自己的)

http://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

3.把.com改成.cn，使用axel下载cuda11.1：

终端输入：

axel -n 50 http://developer.download.nvidia.cn/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

(注意这里网址里的.com已经改成了.cn)（具体参数 -n 50作用：狡兔50窟）

效果：不断线，不降速，已经是成了

Xshell远程连接配置 Ubuntu 18.04.6 + Anaconda + CUDA + Cudnn + Pytorch（GPU+CPU）（上）

写在最前面

参考

Xshell常用命令

Ubantu

检查系统的各项配置

查看ubuntu系统的版本信息

查看Linux的内核版本和系统是多少位的

Ubuntu版本

各种验证

禁用nouveau

安装显卡驱动

卸载显卡驱动

安装显卡驱动

加入PPA，然后更新库

方法一：直接装系统推荐显卡驱动，出错几率小（但需要注意：cuda11.3要求465以上！！！）

方法二：人工查看并选择适合本机的nvidia驱动

查看安装状态

错误处理

1

2

第一次尝试时，它报错了

先尝试重启

（不是这个原因）内核版本更新的问题，导致新版本内核和原来显卡驱动不匹配

CUDA

选择

下载+安装

报错：wget提示无法建立ssl连接

参考1：开启SSH服务

参考2:在网址后面加上–no-check-certificate

参考三：把https修改为http地址

新的报错

下载axel + 将com改为cn

热门文章

最新文章

相关电子书

相关实验场景

推荐镜像