Ubuntu 18.04 + CUDA 11.3.0 + CUDNN 8.2.1 + Anaconda + Pytorch 1.10(上)

简介: Ubuntu 18.04 + CUDA 11.3.0 + CUDNN 8.2.1 + Anaconda + Pytorch 1.10

写在最前面

Ubuntu 18.04 + CUDA 11.3.0 + CUDNN 8.2.1 + Anaconda + Pytorch 1.10

不需要有外网,也不需要虚拟机的图形化界面

下载安装都是本机去阿里镜像网站下载whl,然后通过xftp传输,失败率降到最低

若报错,可参考完整流程:https://blog.csdn.net/wtyuong/article/details/127877543

参考

https://blog.csdn.net/TU_Dresden/article/details/121049141

https://blog.csdn.net/weixin_43491255/article/details/118549032

https://blog.csdn.net/a563562675/article/details/119458550

https://blog.csdn.net/a563562675/article/details/119458550

https://blog.csdn.net/qq_44315987/article/details/106314054

(下面这个链接内含各种报错)

https://blog.csdn.net/Williamcsj/article/details/123523087

https://blog.csdn.net/A496608119/article/details/123455529

https://blog.csdn.net/qq_51570094/article/details/124148671

Xshell常用命令

Ctrl + Shift 复制

Insert + Shift 粘贴

Ubantu

Ctrl+Alt+T打开终端

检查系统的各项配置

查看ubuntu系统的版本信息和gcc版本

cat /proc/version

Linux version 5.4.0-131-generic (buildd@lcy02-amd64-092) linux内核版本号

gcc version 7.5.0 gcc编译器版本号7.5

Ubuntu 7.5.0-3ubuntu1~18.04 Ubuntu版本号18.04

查看Linux的内核版本和系统是多少位的

uname -a

显示正在使用的内核为5.4.0-131-generic。

X86_64代表系统是64位的。

验证机器是否具有n卡

lspci | grep -i nvidia

验证内核

sudo apt-get install linux-headers-$(uname -r)

查看原有的显卡版本和CUDA支持(如果安装了跳过安装显卡nvidia)

nvidia-smi

各种配置(建议不要省略)

安装vim

sudo apt-get install vim

增加pip镜像源

安装pip

apt install pip

检查pip源

pip config list

增加镜像源

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simpleWriting

禁用nouveau

sudo vim /etc/modprobe.d/blacklist.conf

打开上述文档添加这两行保存

blacklist nouveau
options nouveau modeset=0

刷新

sudo update-initramfs -u

重启电脑,一定要重启。

sudo reboot

然后输入这个命令

lsmod | grep nouveau

如果啥也没输出,就是成功关闭了。

开启SSH服务

https://blog.csdn.net/qq_42130526/article/details/119972366

检查是否开启SSH服务

因为Ubuntu默认是不安装SSH服务的,所以在安装之前可以查看目前系统是否安装,通过以下命令:

ps -e |grep ssh

输出的结果ssh-agent表示ssh-client启动,sshd表示ssh-server启动。我们是需要安装服务端所以应该看是否有sshd,如果没有则说明没有安装。

启动SSH服务

sudo /etc/init.d/ssh start

安装显卡驱动

卸载显卡驱动

sudo apt-get remove --purge nvidia*
sudo apt autoremove

安装显卡驱动

加入PPA,然后更新库

sudo apt-get update
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update

直接装系统推荐显卡驱动,出错几率小(但需要注意:cuda11.3要求465以上!!!)

会自动安装推荐的版本(一般是最高的版本)

sudo ubuntu-drivers autoinstall

报警告且不动时,再等一会就开始自己安装了

警告类似于:

WARNING:root:_pkg_get_support nvidia-driver-510-server: package has invalid Support n model

最后的界面显示

测试安装状态

查看状态后需要重启!!!

sudo reboot

使用nvidia-smi 查看是否已经读取到安装的驱动,如果提示没有找到命令重启后再试

nvidia-smi

会出现显卡版本和CUDA支持

例子:

| NVIDIA-SMI 430.26 Driver Version: 430.26 CUDA Version: 10.2 |

这个表示:显卡P106-100,显存6G,驱动430.26,CUDA10.2

CUDA

选择

下载前仔细看这张图

Table 1. CUDA Toolkit and Compatible Driver Versions
CUDA Toolkit  Linux x86_64 Driver Version Windows x86_64 Driver Version
CUDA 10.2.89  >= 440.33 >= 441.22
CUDA 10.1 (10.1.105 general release, and updates) >= 418.39 >= 418.96
CUDA 10.0.130 >= 410.48 >= 411.31
CUDA 9.2 (9.2.148 Update 1) >= 396.37 >= 398.26
CUDA 9.2 (9.2.88) >= 396.26 >= 397.44
CUDA 9.1 (9.1.85) >= 390.46 >= 391.29
CUDA 9.0 (9.0.76) >= 384.81 >= 385.54
CUDA 8.0 (8.0.61 GA2) >= 375.26 >= 376.51
CUDA 8.0 (8.0.44) >= 367.48 >= 369.30
CUDA 7.5 (7.5.16) >= 352.31 >= 353.66
CUDA 7.0 (7.0.28) >= 346.46 >= 347.62

上图给出了不同版本所要求的的最低驱动要求,尽量选择相同的进行安装。

编译cuda samples会报错,例如 chrono模块、gcc版本过高等提示。

与之前的gcc版本进行比对

gcc --version

cuda的gcc依赖版本在官方文档的安装指南上会给出

我是Ubuntu18.04.6,gcc7.5.0

下载+安装

进入官网

https://developer.nvidia.com/cuda-toolkit-archive

普通机器:x86_64 服务器 power architecture

选择需要的CUDA安装包(runfile格式)

可以创建一个文件夹保存下载的文件,然后在终端切换到那个目录下,进行相应的命令行 (如下图末尾箭头所指)

一定要注意版本!!!

网上推荐CUDA 11.3.0 + CUDNN 8.2.1 + Pytorch 1.10

这三者的组合非常麻烦,这套亲测成功,别的搭配不敢保证。

例子:

实际:

不用wget下载,容易因为网不好报错

下载axel + 将com改为cn

Tensorflow官网下载东西也是无法直接访问的,但是可以通过镜像访问。微软的官网直接访问速度很慢,可是把网站的后缀.com改成.cn后速度就很快了。

访问确实快了,但是下载的连接改为cn后是404页面,需要进一步操作

参考:https://blog.csdn.net/yxt916/article/details/109402650

1.下载axel(wget的哥哥):

终端输入:

sudo apt install -y axel

2.看图,复制底下的下载链接:(以下是cuda11.3.0的下载链接,做个示范,你需要复制对应自己的)

http://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

3.把.com改成.cn,使用axel下载cuda11.1:

终端输入:

axel -n 50 http://developer.download.nvidia.cn/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

(注意这里网址里的.com已经改成了.cn)(具体参数 -n 50作用:狡兔50窟)

效果:不断线,不降速,已经是成了

执行结束

sudo sh cuda_11.3.0_465.19.01_linux.run

上述命令执行结束出现一个框

通过方向键下移光标,选择continue

打字输入accept

然后就是下面这个了

由于已经安装了驱动 按方向键,使得光标在driver上,再按回车,之后通过方向键使光标移动到install

此时下图里需要将第一行的Driver CUDA 11.0去掉。(注意:回车键作用是将 [X] 就会变成[ ],[X]代表有,[ ]代表无)

应该将[X] 就会变成[ ]

成功了

配置环境

装好之后打开环境变量

vim ~/.bashrc

i键进入编辑模式,esc退出,写:wq保存退出

加入这两行保存,注意我这里是11.3,你如果是别的版本,要改成自己的

export PATH="/usr/local/cuda-11.3/bin:$PATH"
export LD_LIBRARY_PATH="/usr/lcoal/cuda-11.3/lib64:$LD_LIBRARY_PATH"

刷新环境变量生效

source ~/.bashrc
目录
相关文章
|
3月前
|
并行计算 Ubuntu Linux
Ubuntu学习笔记(五):18.04安装多版本CUDA
这篇博客文章介绍了在Ubuntu 18.04系统上如何安装和切换不同版本的CUDA,以及如何安装不同版本的cuDNN。
270 2
|
3月前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
384 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
3月前
|
并行计算 PyTorch TensorFlow
Ubuntu安装笔记(一):安装显卡驱动、cuda/cudnn、Anaconda、Pytorch、Tensorflow、Opencv、Visdom、FFMPEG、卸载一些不必要的预装软件
这篇文章是关于如何在Ubuntu操作系统上安装显卡驱动、CUDA、CUDNN、Anaconda、PyTorch、TensorFlow、OpenCV、FFMPEG以及卸载不必要的预装软件的详细指南。
5448 3
|
3月前
|
PyTorch TensorFlow 算法框架/工具
Jetson环境安装(一):Ubuntu18.04安装pytorch、opencv、onnx、tensorflow、setuptools、pycuda....
本文提供了在Ubuntu 18.04操作系统的NVIDIA Jetson平台上安装深度学习和计算机视觉相关库的详细步骤,包括PyTorch、OpenCV、ONNX、TensorFlow等。
164 1
Jetson环境安装(一):Ubuntu18.04安装pytorch、opencv、onnx、tensorflow、setuptools、pycuda....
|
3月前
|
并行计算 Ubuntu 算法
Ubuntu18 服务器 更新升级CUDA版本 pyenv nvidia ubuntu1804 原11.2升级到PyTorch要求12.1 全过程详细记录 apt update
Ubuntu18 服务器 更新升级CUDA版本 pyenv nvidia ubuntu1804 原11.2升级到PyTorch要求12.1 全过程详细记录 apt update
146 0
|
3月前
|
算法 PyTorch 算法框架/工具
Pytorch学习笔记(九):Pytorch模型的FLOPs、模型参数量等信息输出(torchstat、thop、ptflops、torchsummary)
本文介绍了如何使用torchstat、thop、ptflops和torchsummary等工具来计算Pytorch模型的FLOPs、模型参数量等信息。
445 2
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
本文探讨了Transformer模型中变长输入序列的优化策略,旨在解决深度学习中常见的计算效率问题。文章首先介绍了批处理变长输入的技术挑战,特别是填充方法导致的资源浪费。随后,提出了多种优化技术,包括动态填充、PyTorch NestedTensors、FlashAttention2和XFormers的memory_efficient_attention。这些技术通过减少冗余计算、优化内存管理和改进计算模式,显著提升了模型的性能。实验结果显示,使用FlashAttention2和无填充策略的组合可以将步骤时间减少至323毫秒,相比未优化版本提升了约2.5倍。
54 3
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
|
3月前
|
机器学习/深度学习 自然语言处理 监控
利用 PyTorch Lightning 搭建一个文本分类模型
利用 PyTorch Lightning 搭建一个文本分类模型
89 7
利用 PyTorch Lightning 搭建一个文本分类模型
|
3月前
|
机器学习/深度学习 自然语言处理 数据建模
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
本文深入探讨了Transformer模型中的三种关键注意力机制:自注意力、交叉注意力和因果自注意力,这些机制是GPT-4、Llama等大型语言模型的核心。文章不仅讲解了理论概念,还通过Python和PyTorch从零开始实现这些机制,帮助读者深入理解其内部工作原理。自注意力机制通过整合上下文信息增强了输入嵌入,多头注意力则通过多个并行的注意力头捕捉不同类型的依赖关系。交叉注意力则允许模型在两个不同输入序列间传递信息,适用于机器翻译和图像描述等任务。因果自注意力确保模型在生成文本时仅考虑先前的上下文,适用于解码器风格的模型。通过本文的详细解析和代码实现,读者可以全面掌握这些机制的应用潜力。
184 3
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
|
4月前
|
机器学习/深度学习 PyTorch 调度
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
在深度学习中,学习率作为关键超参数对模型收敛速度和性能至关重要。传统方法采用统一学习率,但研究表明为不同层设置差异化学习率能显著提升性能。本文探讨了这一策略的理论基础及PyTorch实现方法,包括模型定义、参数分组、优化器配置及训练流程。通过示例展示了如何为ResNet18设置不同层的学习率,并介绍了渐进式解冻和层适应学习率等高级技巧,帮助研究者更好地优化模型训练。
257 4
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型