Xshell远程连接配置 Ubuntu 18.04.6 + Anaconda + CUDA + Cudnn + Pytorch(GPU+CPU)(上)

简介: Xshell远程连接配置 Ubuntu 18.04.6 + Anaconda + CUDA + Cudnn + Pytorch(GPU+CPU)

写在最前面

是我,那个会遇到各种报错的小雨

为了少遇到一些报错,这次看了八篇帖子,并且尽量将命令都理解了,结果还是遇到各种没看到过的报错。。。。感谢互联网的各位大佬,各种犄角格拉的错误都能被百度到(抱拳

因此这篇文章是两万字保姆级的安装配置(可以先根据需要结合目录跳着看,我回头整理一份一遍过教程)

亲测有效,有图有真相:

pytorch1.12_gpu

pytorch11.3_cpu

参考

https://blog.csdn.net/TU_Dresden/article/details/121049141

https://blog.csdn.net/weixin_43491255/article/details/118549032

https://blog.csdn.net/a563562675/article/details/119458550

https://blog.csdn.net/a563562675/article/details/119458550

https://blog.csdn.net/qq_44315987/article/details/106314054

(下面这个链接内含各种报错)

https://blog.csdn.net/Williamcsj/article/details/123523087

https://blog.csdn.net/A496608119/article/details/123455529

https://blog.csdn.net/qq_51570094/article/details/124148671

Xshell常用命令

Ctrl + Shift 复制

Insert + Shift 粘贴

Ubantu

Ctrl+Alt+T打开终端

检查系统的各项配置

查看ubuntu系统的版本信息

cat /proc/version

Linux version 5.4.0-131-generic (buildd@lcy02-amd64-092) linux内核版本号

gcc version 7.5.0 gcc编译器版本号

Ubuntu 7.5.0-3ubuntu1~18.04 Ubuntu版本号

查看Linux的内核版本和系统是多少位的

查看已安装内核

dpkg --get-selections |grep linux-image

查看正在使用的内核

uname -a

显示正在使用的内核为5.4.0-131-generic。

X86_64代表系统是64位的。

Ubuntu版本

lsb_release -a

Distributor ID: Ubuntu //类别是ubuntu Description: Ubuntu 18.04.6 LTS //18年4月6月发布的稳定版本,LTS是Long Term Support:长时间支持版本 三年 ,一般是18个月

Release: 18.04 //发行日期或者是发行版本号 Codename: bionic //ubuntu的代号名称

各种验证

验证机器是否具有n卡

lspci | grep -i nvidia

gcc验证

gcc --version

7.5.0

验证内核

sudo apt-get install linux-headers-$(uname -r)

查看原有的显卡版本和CUDA支持

nvidia-smi

禁用nouveau

sudo gedit /etc/modprobe.d/blacklist.conf

vim

打开上述文档添加这两行保存

blacklist nouveau
options nouveau modeset=0

刷新

sudo update-initramfs -u

重启电脑,一定要重启。

sudo reboot

然后输入这个命令

lsmod | grep nouveau

如果啥也没输出,就是成功关闭了。

cd /lib/firmware/rtl_nic/
sudo wget https://git.kernel.org/pub/scm/linux/kernel/git/firmware/linux-firmware.git/tree/rtl_nic/rtl8125a-3.fw

安装显卡驱动

卸载显卡驱动

sudo apt-get remove --purge nvidia*
sudo apt autoremove

安装显卡驱动

加入PPA,然后更新库

sudo apt-get update
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update

方法一:直接装系统推荐显卡驱动,出错几率小(但需要注意:cuda11.3要求465以上!!!)

会自动安装推荐的版本(一般是最高的版本)

sudo ubuntu-drivers autoinstall

报警告且不动时,再等一会就开始自己安装了

警告类似于:

WARNING:root:_pkg_get_support nvidia-driver-510-server: package has invalid Support n model

最后的界面显示

方法二:人工查看并选择适合本机的nvidia驱动

查看适合本机的nvidia驱动

ubuntu-drivers devices

有的小伙伴到这里会发现推荐的驱动基本都是no-free

那么进行下面命令,如果有 那就跳过

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
更新完后就重新 ubuntu-drivers devices
就会有推荐的免费版本了

选择合适自己的版本,具体情况看你的推荐

根据下列结果,这里 nvidia-driver-465 为推荐驱动安装版本(注意cuda11.3要求465以上!!!)

sudo apt-get install nvidia-driver-440 nvidia-settings nvidia-prime

查看安装状态

查看状态后需要重启!!!要不然会报错

sudo reboot

使用nvidia-smi 查看是否已经读取到安装的驱动,如果提示没有找到命令重启后再试

nvidia-smi

会出现显卡版本和CUDA支持

例子:

| NVIDIA-SMI 430.26 Driver Version: 430.26 CUDA Version: 10.2 |

这个表示:显卡P106-100,显存6G,驱动430.26,CUDA10.2

错误处理

1

如果出现NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 需要手动关闭BIOS的安全模式。

2

如果安装 nvidia-driver-410 或以上版本提示 packages 无法安装,请执行以下步骤:

移除已添加的 PPA

sudo apt-add-repository -r ppa:graphics-drivers/ppa

更新 apt

sudo apt update

移除 NVIDIA 显卡驱动文件

sudo apt remove nvidia*

执行自动清理

sudo apt autoremove

然后重新回到本文初步骤重新安装

第一次尝试时,它报错了

however,它报错了

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the lat

先尝试重启

sudo reboot

然后服务器挂了。。。连接不上了

属于服务器重启后,无法被远程连接

参考:https://blog.csdn.net/GX_1_11_real/article/details/80925900

排查:

【1】确定是否是本地的问题,即执行远程的主机的问题

连接同一vpn下,另一台服务器

所以不是本机电脑配置的问题

【2】确认是否重启服务器的问题

好吧,那台服务器可能有问题。

服务器重新挂起后就能连接了,然后驱动也有了,果然是没重启的原因。。。。

(不是这个原因)内核版本更新的问题,导致新版本内核和原来显卡驱动不匹配

https://blog.csdn.net/xiaojinger_123/article/details/121161446

之前看过,正在使用的内核为5.4.0-131-generic。

在上面命令行中找到对应的版本,安装nvidia驱动时记下了当时的内核版本为5.4.0-131-generic。

所以应该不是这个问题

CUDA

选择

下载前仔细看这张图

Table 1. CUDA Toolkit and Compatible Driver Versions
CUDA Toolkit  Linux x86_64 Driver Version Windows x86_64 Driver Version
CUDA 10.2.89  >= 440.33 >= 441.22
CUDA 10.1 (10.1.105 general release, and updates) >= 418.39 >= 418.96
CUDA 10.0.130 >= 410.48 >= 411.31
CUDA 9.2 (9.2.148 Update 1) >= 396.37 >= 398.26
CUDA 9.2 (9.2.88) >= 396.26 >= 397.44
CUDA 9.1 (9.1.85) >= 390.46 >= 391.29
CUDA 9.0 (9.0.76) >= 384.81 >= 385.54
CUDA 8.0 (8.0.61 GA2) >= 375.26 >= 376.51
CUDA 8.0 (8.0.44) >= 367.48 >= 369.30
CUDA 7.5 (7.5.16) >= 352.31 >= 353.66
CUDA 7.0 (7.0.28) >= 346.46 >= 347.62

上图给出了不同版本所要求的的最低驱动要求,尽量选择相同的进行安装。

编译cuda samples会报错,例如 chrono模块、gcc版本过高等提示。

与之前的gcc版本进行比对

gcc --version

cuda的gcc依赖版本在官方文档的安装指南上会给出

我是Ubuntu18.04.6,gcc7.5.0

第一步,如果版本和cuda依赖gcc不对应,就安装cuda需要的版本

sudo apt-get install gcc-7.0
sudo apt-get install g++-7.0

第二步,配置gcc版本的优先级。默认使用的gcc版本为优先级最高的。设置gcc 10优先级为100,设置gcc 7优先级为70。那么默认使用gcc10。

sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-7 100
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-7 100

第三步,切换需要的gcc版本,命令为sudo update-alternatives --config gcc,默认是0选项。输入需要的gcc版本序号后,即可成功切换。

sudo update-alternatives --config gcc
  选择       路径          优先级  状态
------------------------------------------------------------
* 0            /usr/bin/gcc-9   50        自动模式
  1            /usr/bin/g++-9   50        手动模式
  2            /usr/bin/gcc-7   50        手动模式

输入前面显示的编号即可

下载+安装

进入官网

https://developer.nvidia.com/cuda-toolkit-archive

普通机器:x86_64 服务器 power architecture

选择需要的CUDA安装包(runfile格式)

可以创建一个文件夹保存下载的文件,然后在终端切换到那个目录下,进行相应的命令行 (如下图末尾箭头所指)

一定要注意版本!!!

网上推荐CUDA 11.3.0 + CUDNN 8.2.1 + Pytorch 1.10

这三者的组合非常麻烦,这套那位博主亲测成功,别的搭配不敢保证。

例子:

实际:

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

然后报错了、无语这都能报错。。。。

报错:wget提示无法建立ssl连接

参考1:开启SSH服务

https://blog.csdn.net/qq_42130526/article/details/119972366

检查是否开启SSH服务

因为Ubuntu默认是不安装SSH服务的,所以在安装之前可以查看目前系统是否安装,通过以下命令:

ps -e |grep ssh

输出的结果ssh-agent表示ssh-client启动,sshd表示ssh-server启动。我们是需要安装服务端所以应该看是否有sshd,如果没有则说明没有安装。

启动SSH服务

sudo /etc/init.d/ssh start

参考2:在网址后面加上–no-check-certificate

https://blog.csdn.net/qq_38883271/article/details/116278157

在网址后面加上–no-check-certificate,例如:

wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run --no-check-certificate

原因:wget在使用https协议时会验证网站证书,而证书会经常失效,加上–no-check-certificate忽略验证证书的步骤。

参考三:把https修改为http地址

参考:

https://blog.csdn.net/qq_28887735/article/details/81842592

wget http://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run --no-check-certificate

新的报错

已发出 HTTP 请求,正在等待回应…

读取文件头错误 (连接被对方重设)。

重试中。

下载axel + 将com改为cn

Tensorflow官网下载东西也是无法直接访问的,但是可以通过镜像访问。微软的官网直接访问速度很慢,可是把网站的后缀.com改成.cn后速度就很快了。

访问确实快了,但是下载的连接改为cn后是404页面,需要进一步操作

参考:https://blog.csdn.net/yxt916/article/details/109402650

1.下载axel(wget的哥哥):

终端输入:

sudo apt install -y axel

2.看图,复制底下的下载链接:(以下是cuda11.3.0的下载链接,做个示范,你需要复制对应自己的)

http://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

3.把.com改成.cn,使用axel下载cuda11.1:

终端输入:

axel -n 50 http://developer.download.nvidia.cn/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

(注意这里网址里的.com已经改成了.cn)(具体参数 -n 50作用:狡兔50窟)

效果:不断线,不降速,已经是成了

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
3月前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
432 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
3月前
|
并行计算 Shell TensorFlow
Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
在使用TensorFlow-GPU训练MTCNN时,如果遇到“Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED”错误,通常是由于TensorFlow、CUDA和cuDNN版本不兼容或显存分配问题导致的,可以通过安装匹配的版本或在代码中设置动态显存分配来解决。
73 1
Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
|
3月前
|
并行计算 PyTorch TensorFlow
Ubuntu安装笔记(一):安装显卡驱动、cuda/cudnn、Anaconda、Pytorch、Tensorflow、Opencv、Visdom、FFMPEG、卸载一些不必要的预装软件
这篇文章是关于如何在Ubuntu操作系统上安装显卡驱动、CUDA、CUDNN、Anaconda、PyTorch、TensorFlow、OpenCV、FFMPEG以及卸载不必要的预装软件的详细指南。
5998 3
|
3月前
|
监控 异构计算
Jetson 学习笔记(八):htop查看CPU占用情况和jtop监控CPU和GPU
在NVIDIA Jetson平台上使用htop和jtop工具来监控CPU、GPU和内存的使用情况,并提供了安装和使用这些工具的具体命令。
295 0
|
1月前
|
开发框架 .NET PHP
网站应用项目如何选择阿里云服务器实例规格+内存+CPU+带宽+操作系统等配置
对于使用阿里云服务器的搭建网站的用户来说,面对众多可选的实例规格和配置选项,我们应该如何做出最佳选择,以最大化业务效益并控制成本,成为大家比较关注的问题,如果实例、内存、CPU、带宽等配置选择不合适,可能会影响到自己业务在云服务器上的计算性能及后期运营状况,本文将详细解析企业在搭建网站应用项目时选购阿里云服务器应考虑的一些因素,以供参考。
|
2月前
|
Ubuntu Shell 开发工具
ubuntu/debian shell 脚本自动配置 gitea git 仓库
这是一个自动配置 Gitea Git 仓库的 Shell 脚本,支持 Ubuntu 20+ 和 Debian 12+ 系统。脚本会创建必要的目录、下载并安装 Gitea,创建 Gitea 用户和服务,确保 Gitea 在系统启动时自动运行。用户可以选择从官方或小绿叶技术博客下载安装包。
91 2
|
3月前
|
网络协议 Ubuntu 网络安全
|
3月前
|
消息中间件 监控 Ubuntu
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
121 3
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
|
3月前
|
资源调度
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败
55 2
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败