Linux Enterprise Server 15 SP3配置安装kvm nvidia vGPU

简介: Linux Enterprise Server 15 SP3配置安装kvm nvidia vGPU

参考链接

配置过程

配置要求

  • BIOS启用SRIOV
  • BIOS启用Above 4G encoding
  • BIOS启用Intel VT-d

更详细信息可以参考一下链接

然后启用IOMMU,添加到grub上

cat /proc/cmdline
BOOT_IMAGE=/boot/vmlinuz-default [...] intel_iommu=on [...]

假如没有上述iommu字段,那就要添加/etc/default/grub

  • Intel cpu
GRUB_CMDLINE_LINUX="intel_iommu=on"
  • amd cpu
GRUB_CMDLINE_LINUX="amd_iommu=on"

生成一个新的grub文件

sudo grub2-mkconfig -o /boot/grub2/grub.cfg

然后禁用 nouveau kernel module

echo"blacklist nouveau" > /etc/modprobe.d/50-blacklist.conf

重启

sudo systemctl reboot


安装

在安装依赖包前,建议先安装国内源,且把旧的源删除

zypper clean
zypper ref

清理缓存


安装 kernel-default-devel

zypper update
zypper install kernel-default-devel dkms
zypper install -t pattern devel_C_C++ devel_kernely

切换init模式

sudo init 3

安装vGPU驱动,这个驱动跟常规的驱动不一样,跟厂商那边获取

chmod+x NVIDIA-Linux-x86_64-470.82-vgpu-kvm.run
./NVIDIA-Linux-x86_64-470.82-vgpu-kvm.run --dkms

查看是否安装成功,假如能正确显示显卡信息,则代表安装成功

localhost:~ # nvidia-smiTue Dec  716:14:42 2021+-----------------------------------------------------------------------------+| NVIDIA-SMI 470.82       Driver Version: 470.82       CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA RTX A5000    On   | 00000000:18:00.0 Off |                  Off |
| 52%   78C    P0   203W / 230W |  23936MiB / 24258MiB |     89%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+|   1  NVIDIA RTX A5000    On   | 00000000:3B:00.0 Off |                  Off |
| 54%   78C    P0   199W / 230W |  23936MiB / 24258MiB |     74%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A     14174    C+G   vgpu                            23936MiB |
|    1   N/A  N/A     14174    C+G   vgpu                            23936MiB |
+-----------------------------------------------------------------------------+

还需要查看nvidia module

localhost:~ # lsmod | grep nvidianvidia_vgpu_vfio       6963236nvidia              353648643722mdev                   286722 vfio_mdev,nvidia_vgpu_vfio
vfio                   409608 vfio_mdev,nvidia_vgpu_vfio,vfio_iommu_type1
drm                   6144007 drm_kms_helper,drm_vram_helper,ast,nvidia,drm_ttm_helper,ttm

nvidia vGPU有两种模式:

  • profile
  • mig

首先A5000不支持MIG模式,以下输出信息可知

localhost:~ # nvidia-smi -i 0 -mig 1Unable to enable MIG Mode for GPU 00000000:18:00.0: Not Supported
Treating as warning and moving on.
All done.

所以我们需要使用的profile的配置方式

在刚安装完驱动后,先重启机器,重启后,启用显卡设备

sudo /usr/lib/nvidia/sriov-manage -e00:18:0000.0
sudo /usr/lib/nvidia/sriov-manage -e00:3b:0000.0
cd /sys/bus/pci/devices/0000:18:00.0/virtfn0/mdev_supported_types
for i in *; doecho""$(cat $i/name) available: $(cat $i/avail*); doneNVIDIA RTXA5000-1B available: 0 NVIDIA RTXA5000-2B available: 0 NVIDIA RTXA5000-1Q available: 0 NVIDIA RTXA5000-2Q available: 0 NVIDIA RTXA5000-3Q available: 0 NVIDIA RTXA5000-4Q available: 0 NVIDIA RTXA5000-6Q available: 0 NVIDIA RTXA5000-8Q available: 0 NVIDIA RTXA5000-12Q available: 0 NVIDIA RTXA5000-24Q available: 0 NVIDIA RTXA5000-1A available: 0 NVIDIA RTXA5000-2A available: 0 NVIDIA RTXA5000-3A available: 0 NVIDIA RTXA5000-4A available: 0 NVIDIA RTXA5000-6A available: 0 NVIDIA RTXA5000-8A available: 0 NVIDIA RTXA5000-12A available: 0 NVIDIA RTXA5000-24A available: 0 NVIDIA RTXA5000-4C available: 0 NVIDIA RTXA5000-6C available: 0 NVIDIA RTXA5000-8C available: 0 NVIDIA RTXA5000-12C available: 0 NVIDIA RTXA5000-24C available: 0uuidgen
f715f63c-0d00-4007-9c5a-b07b0c6c05de
sudoecho"f715f63c-0d00-4007-9c5a-b07b0c6c05de" > nvidia-666/create
sudo dmesg | tail
[...]
[ 3218.491843] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Adding to iommu group 322[ 3218.499700] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: group_id =322[ 3599.608540] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Removing from iommu group 322[ 3599.616753] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: detaching iommu
[ 3626.345530] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Adding to iommu group 322[ 3626.353383] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: group_id =322


相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
1天前
|
关系型数据库 MySQL Java
Linux 安装 JDK、MySQL、Tomcat(图文并茂)
Linux 安装 JDK、MySQL、Tomcat(图文并茂)
13 2
|
1天前
|
负载均衡 Java 应用服务中间件
nginx安装在linux上
nginx安装在linux上
21 2
|
3天前
|
监控 安全 Linux
Linux系统之安装ServerBee服务器监控工具
【4月更文挑战第22天】Linux系统之安装ServerBee服务器监控工具
41 2
|
3天前
|
Linux 开发工具 Android开发
Docker系列(1)安装Linux系统编译Android源码
Docker系列(1)安装Linux系统编译Android源码
7 0
|
3天前
|
Ubuntu Linux 开发工具
WSL2(3)安装Linux headers完美解决方案
WSL2(3)安装Linux headers完美解决方案
5 0
|
6月前
|
Java 关系型数据库 MySQL
【Linux环境配置】Linux系统安装jdk1.8操作步骤
【Linux环境配置】Linux系统安装jdk1.8操作步骤
244 0
|
存储 Linux 数据安全/隐私保护
linux系统安装步骤
linux系统安装步骤
251 0
linux系统安装步骤
|
安全 关系型数据库 MySQL
Linux系统安装MySql步骤及截屏
原文出自【听云技术博客】:http://blog.tingyun.com/web/article/detail/1255 如下是我工作中的记录,介绍的是linux系统下使用官方编译好的二进制文件进行安装MySql的安装过程和安装截屏,这种安装方式速度快,安装步骤简单! 需要的朋友可以按照如下
4858 0
|
5天前
|
机器学习/深度学习 缓存 监控
linux查看CPU、内存、网络、磁盘IO命令
`Linux`系统中,使用`top`命令查看CPU状态,要查看CPU详细信息,可利用`cat /proc/cpuinfo`相关命令。`free`命令用于查看内存使用情况。网络相关命令包括`ifconfig`(查看网卡状态)、`ifdown/ifup`(禁用/启用网卡)、`netstat`(列出网络连接,如`-tuln`组合)以及`nslookup`、`ping`、`telnet`、`traceroute`等。磁盘IO方面,`iostat`(如`-k -p ALL`)显示磁盘IO统计,`iotop`(如`-o -d 1`)则用于查看磁盘IO瓶颈。