Xshell远程连接配置 Ubuntu 18.04.6 + Anaconda + CUDA + Cudnn + Pytorch(GPU+CPU)(上)

简介: Xshell远程连接配置 Ubuntu 18.04.6 + Anaconda + CUDA + Cudnn + Pytorch(GPU+CPU)

写在最前面

是我,那个会遇到各种报错的小雨

为了少遇到一些报错,这次看了八篇帖子,并且尽量将命令都理解了,结果还是遇到各种没看到过的报错。。。。感谢互联网的各位大佬,各种犄角格拉的错误都能被百度到(抱拳

因此这篇文章是两万字保姆级的安装配置(可以先根据需要结合目录跳着看,我回头整理一份一遍过教程)

亲测有效,有图有真相:

pytorch1.12_gpu

pytorch11.3_cpu

参考

https://blog.csdn.net/TU_Dresden/article/details/121049141

https://blog.csdn.net/weixin_43491255/article/details/118549032

https://blog.csdn.net/a563562675/article/details/119458550

https://blog.csdn.net/a563562675/article/details/119458550

https://blog.csdn.net/qq_44315987/article/details/106314054

(下面这个链接内含各种报错)

https://blog.csdn.net/Williamcsj/article/details/123523087

https://blog.csdn.net/A496608119/article/details/123455529

https://blog.csdn.net/qq_51570094/article/details/124148671

Xshell常用命令

Ctrl + Shift 复制

Insert + Shift 粘贴

Ubantu

Ctrl+Alt+T打开终端

检查系统的各项配置

查看ubuntu系统的版本信息

cat /proc/version

Linux version 5.4.0-131-generic (buildd@lcy02-amd64-092) linux内核版本号

gcc version 7.5.0 gcc编译器版本号

Ubuntu 7.5.0-3ubuntu1~18.04 Ubuntu版本号

查看Linux的内核版本和系统是多少位的

查看已安装内核

dpkg --get-selections |grep linux-image

查看正在使用的内核

uname -a

显示正在使用的内核为5.4.0-131-generic。

X86_64代表系统是64位的。

Ubuntu版本

lsb_release -a

Distributor ID: Ubuntu //类别是ubuntu Description: Ubuntu 18.04.6 LTS //18年4月6月发布的稳定版本,LTS是Long Term Support:长时间支持版本 三年 ,一般是18个月

Release: 18.04 //发行日期或者是发行版本号 Codename: bionic //ubuntu的代号名称

各种验证

验证机器是否具有n卡

lspci | grep -i nvidia

gcc验证

gcc --version

7.5.0

验证内核

sudo apt-get install linux-headers-$(uname -r)

查看原有的显卡版本和CUDA支持

nvidia-smi

禁用nouveau

sudo gedit /etc/modprobe.d/blacklist.conf

vim

打开上述文档添加这两行保存

blacklist nouveau
options nouveau modeset=0

刷新

sudo update-initramfs -u

重启电脑,一定要重启。

sudo reboot

然后输入这个命令

lsmod | grep nouveau

如果啥也没输出,就是成功关闭了。

cd /lib/firmware/rtl_nic/
sudo wget https://git.kernel.org/pub/scm/linux/kernel/git/firmware/linux-firmware.git/tree/rtl_nic/rtl8125a-3.fw

安装显卡驱动

卸载显卡驱动

sudo apt-get remove --purge nvidia*
sudo apt autoremove

安装显卡驱动

加入PPA,然后更新库

sudo apt-get update
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update

方法一:直接装系统推荐显卡驱动,出错几率小(但需要注意:cuda11.3要求465以上!!!)

会自动安装推荐的版本(一般是最高的版本)

sudo ubuntu-drivers autoinstall

报警告且不动时,再等一会就开始自己安装了

警告类似于:

WARNING:root:_pkg_get_support nvidia-driver-510-server: package has invalid Support n model

最后的界面显示

方法二:人工查看并选择适合本机的nvidia驱动

查看适合本机的nvidia驱动

ubuntu-drivers devices

有的小伙伴到这里会发现推荐的驱动基本都是no-free

那么进行下面命令,如果有 那就跳过

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
更新完后就重新 ubuntu-drivers devices
就会有推荐的免费版本了

选择合适自己的版本,具体情况看你的推荐

根据下列结果,这里 nvidia-driver-465 为推荐驱动安装版本(注意cuda11.3要求465以上!!!)

sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime

查看安装状态

查看状态后需要重启!!!要不然会报错

sudo reboot

使用nvidia-smi 查看是否已经读取到安装的驱动,如果提示没有找到命令重启后再试

nvidia-smi

会出现显卡版本和CUDA支持

例子:

| NVIDIA-SMI 430.26 Driver Version: 430.26 CUDA Version: 10.2 |

这个表示:显卡P106-100,显存6G,驱动430.26,CUDA10.2

错误处理

1

如果出现NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 需要手动关闭BIOS的安全模式。

2

如果安装 nvidia-driver-410 或以上版本提示 packages 无法安装,请执行以下步骤:

移除已添加的 PPA

sudo apt-add-repository -r ppa:graphics-drivers/ppa

更新 apt

sudo apt update

移除 NVIDIA 显卡驱动文件

sudo apt remove nvidia*

执行自动清理

sudo apt autoremove

然后重新回到本文初步骤重新安装

第一次尝试时,它报错了

however,它报错了

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the lat

先尝试重启

sudo reboot

然后服务器挂了。。。连接不上了

属于服务器重启后,无法被远程连接

参考:https://blog.csdn.net/GX_1_11_real/article/details/80925900

排查:

【1】确定是否是本地的问题,即执行远程的主机的问题

连接同一vpn下,另一台服务器

所以不是本机电脑配置的问题

【2】确认是否重启服务器的问题

好吧,那台服务器可能有问题。

服务器重新挂起后就能连接了,然后驱动也有了,果然是没重启的原因。。。。

(不是这个原因)内核版本更新的问题,导致新版本内核和原来显卡驱动不匹配

https://blog.csdn.net/xiaojinger_123/article/details/121161446

之前看过,正在使用的内核为5.4.0-131-generic。

在上面命令行中找到对应的版本,安装nvidia驱动时记下了当时的内核版本为5.4.0-131-generic。

所以应该不是这个问题

CUDA

选择

下载前仔细看这张图

Table 1. CUDA Toolkit and Compatible Driver Versions
CUDA Toolkit  Linux x86_64 Driver Version Windows x86_64 Driver Version
CUDA 10.2.89  >= 440.33 >= 441.22
CUDA 10.1 (10.1.105 general release, and updates) >= 418.39 >= 418.96
CUDA 10.0.130 >= 410.48 >= 411.31
CUDA 9.2 (9.2.148 Update 1) >= 396.37 >= 398.26
CUDA 9.2 (9.2.88) >= 396.26 >= 397.44
CUDA 9.1 (9.1.85) >= 390.46 >= 391.29
CUDA 9.0 (9.0.76) >= 384.81 >= 385.54
CUDA 8.0 (8.0.61 GA2) >= 375.26 >= 376.51
CUDA 8.0 (8.0.44) >= 367.48 >= 369.30
CUDA 7.5 (7.5.16) >= 352.31 >= 353.66
CUDA 7.0 (7.0.28) >= 346.46 >= 347.62

上图给出了不同版本所要求的的最低驱动要求,尽量选择相同的进行安装。

编译cuda samples会报错,例如 chrono模块、gcc版本过高等提示。

与之前的gcc版本进行比对

gcc --version

cuda的gcc依赖版本在官方文档的安装指南上会给出

我是Ubuntu18.04.6,gcc7.5.0

第一步,如果版本和cuda依赖gcc不对应,就安装cuda需要的版本

sudo apt-get install gcc-7.0
sudo apt-get install g++-7.0

第二步,配置gcc版本的优先级。默认使用的gcc版本为优先级最高的。设置gcc 10优先级为100,设置gcc 7优先级为70。那么默认使用gcc10。

sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 100
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-7 100

第三步,切换需要的gcc版本,命令为sudo update-alternatives --config gcc,默认是0选项。输入需要的gcc版本序号后,即可成功切换。

sudo update-alternatives --config gcc
  选择       路径          优先级  状态
------------------------------------------------------------
* 0            /usr/bin/gcc-9   50        自动模式
  1            /usr/bin/g++-9   50        手动模式
  2            /usr/bin/gcc-7   50        手动模式

输入前面显示的编号即可

下载+安装

进入官网

https://developer.nvidia.com/cuda-toolkit-archive

普通机器:x86_64 服务器 power architecture

选择需要的CUDA安装包(runfile格式)

可以创建一个文件夹保存下载的文件,然后在终端切换到那个目录下,进行相应的命令行 (如下图末尾箭头所指)

一定要注意版本!!!

网上推荐CUDA 11.3.0 + CUDNN 8.2.1 + Pytorch 1.10

这三者的组合非常麻烦,这套那位博主亲测成功,别的搭配不敢保证。

例子:

实际:

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

然后报错了、无语这都能报错。。。。

报错:wget提示无法建立ssl连接

参考1:开启SSH服务

https://blog.csdn.net/qq_42130526/article/details/119972366

检查是否开启SSH服务

因为Ubuntu默认是不安装SSH服务的,所以在安装之前可以查看目前系统是否安装,通过以下命令:

ps -e |grep ssh

输出的结果ssh-agent表示ssh-client启动,sshd表示ssh-server启动。我们是需要安装服务端所以应该看是否有sshd,如果没有则说明没有安装。

启动SSH服务

sudo /etc/init.d/ssh start

参考2:在网址后面加上–no-check-certificate

https://blog.csdn.net/qq_38883271/article/details/116278157

在网址后面加上–no-check-certificate,例如:

wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run --no-check-certificate

原因:wget在使用https协议时会验证网站证书,而证书会经常失效,加上–no-check-certificate忽略验证证书的步骤。

参考三:把https修改为http地址

参考:

https://blog.csdn.net/qq_28887735/article/details/81842592

wget http://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run --no-check-certificate

新的报错

已发出 HTTP 请求,正在等待回应…

读取文件头错误 (连接被对方重设)。

重试中。

下载axel + 将com改为cn

Tensorflow官网下载东西也是无法直接访问的,但是可以通过镜像访问。微软的官网直接访问速度很慢,可是把网站的后缀.com改成.cn后速度就很快了。

访问确实快了,但是下载的连接改为cn后是404页面,需要进一步操作

参考:https://blog.csdn.net/yxt916/article/details/109402650

1.下载axel(wget的哥哥):

终端输入:

sudo apt install -y axel

2.看图,复制底下的下载链接:(以下是cuda11.3.0的下载链接,做个示范,你需要复制对应自己的)

http://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

3.把.com改成.cn,使用axel下载cuda11.1:

终端输入:

axel -n 50 http://developer.download.nvidia.cn/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

(注意这里网址里的.com已经改成了.cn)(具体参数 -n 50作用:狡兔50窟)

效果:不断线,不降速,已经是成了

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
1月前
|
人工智能 并行计算 PyTorch
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
【PyTorch&TensorBoard实战】GPU与CPU的计算速度对比(附代码)
42 0
|
2月前
|
机器学习/深度学习 存储 PyTorch
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
69 0
|
2天前
|
机器学习/深度学习 并行计算 图形学
CPU、GPU、TPU、NPU等到底是什么?
CPU、GPU、TPU、NPU等到底是什么?
|
2天前
|
Ubuntu Linux
Linux(Ubuntu)系统临时IP以及静态IP配置(关闭、启动网卡等操作)
请注意,以上步骤是在临时基础上进行配置的。如果要永久保存静态IP地址,通常还需要修改 `/etc/network/interfaces`文件,以便在系统重启后保持配置。同时,确保备份相关配置文件以防止出现问题。
14 1
|
4天前
|
Ubuntu Linux 测试技术
Linux(32)Rockchip RK3568 Ubuntu22.04上部署 Docker: 详细配置与功能测试(下)
Linux(32)Rockchip RK3568 Ubuntu22.04上部署 Docker: 详细配置与功能测试
35 1
|
5天前
|
Ubuntu 网络协议 Linux
Linux(20) Ubuntu 20.04 网络接口自动切换路由配置
Linux(20) Ubuntu 20.04 网络接口自动切换路由配置
28 0
|
12天前
|
机器学习/深度学习 并行计算 算法框架/工具
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
|
19天前
|
Ubuntu 开发工具 git
ubuntu18.04下配置muduoC++11环境
以上步骤将在Ubuntu 18.04下配置C++11环境,并编译安装muduo库。请根据实际情况对配置步骤进行调整。 买CN2云服务器,免备案服务器,高防服务器,就选蓝易云。百度搜索:蓝易云
17 0
|
21天前
|
Ubuntu 网络安全 数据安全/隐私保护
ubuntu篇-配置FTP服务,本机和docker安装
通过以上步骤,你可以在Ubuntu上配置FTP服务,无论是本机安装还是Docker内安装,都可以提供FTP文件传输服务。 买CN2云服务器,免备案服务器,高防服务器,就选蓝易云。百度搜索:蓝易云
22 1
|
24天前
|
Ubuntu 开发工具
Ubuntu vim配置支持鼠标
Ubuntu vim配置支持鼠标
12 0