Linux Enterprise Server 15 SP3配置安装kvm nvidia vGPU

简介: Linux Enterprise Server 15 SP3配置安装kvm nvidia vGPU

参考链接

配置过程

配置要求

  • BIOS启用SRIOV
  • BIOS启用Above 4G encoding
  • BIOS启用Intel VT-d

更详细信息可以参考一下链接

然后启用IOMMU,添加到grub上

cat /proc/cmdline
BOOT_IMAGE=/boot/vmlinuz-default [...] intel_iommu=on [...]

假如没有上述iommu字段,那就要添加/etc/default/grub

  • Intel cpu
GRUB_CMDLINE_LINUX="intel_iommu=on"
  • amd cpu
GRUB_CMDLINE_LINUX="amd_iommu=on"

生成一个新的grub文件

sudo grub2-mkconfig -o /boot/grub2/grub.cfg

然后禁用 nouveau kernel module

echo"blacklist nouveau" > /etc/modprobe.d/50-blacklist.conf

重启

sudo systemctl reboot


安装

在安装依赖包前,建议先安装国内源,且把旧的源删除

zypper clean
zypper ref

清理缓存


安装 kernel-default-devel

zypper update
zypper install kernel-default-devel dkms
zypper install -t pattern devel_C_C++ devel_kernely

切换init模式

sudo init 3

安装vGPU驱动,这个驱动跟常规的驱动不一样,跟厂商那边获取

chmod+x NVIDIA-Linux-x86_64-470.82-vgpu-kvm.run
./NVIDIA-Linux-x86_64-470.82-vgpu-kvm.run --dkms

查看是否安装成功,假如能正确显示显卡信息,则代表安装成功

localhost:~ # nvidia-smiTue Dec  716:14:42 2021+-----------------------------------------------------------------------------+| NVIDIA-SMI 470.82       Driver Version: 470.82       CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA RTX A5000    On   | 00000000:18:00.0 Off |                  Off |
| 52%   78C    P0   203W / 230W |  23936MiB / 24258MiB |     89%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+|   1  NVIDIA RTX A5000    On   | 00000000:3B:00.0 Off |                  Off |
| 54%   78C    P0   199W / 230W |  23936MiB / 24258MiB |     74%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A     14174    C+G   vgpu                            23936MiB |
|    1   N/A  N/A     14174    C+G   vgpu                            23936MiB |
+-----------------------------------------------------------------------------+

还需要查看nvidia module

localhost:~ # lsmod | grep nvidianvidia_vgpu_vfio       6963236nvidia              353648643722mdev                   286722 vfio_mdev,nvidia_vgpu_vfio
vfio                   409608 vfio_mdev,nvidia_vgpu_vfio,vfio_iommu_type1
drm                   6144007 drm_kms_helper,drm_vram_helper,ast,nvidia,drm_ttm_helper,ttm

nvidia vGPU有两种模式:

  • profile
  • mig

首先A5000不支持MIG模式,以下输出信息可知

localhost:~ # nvidia-smi -i 0 -mig 1Unable to enable MIG Mode for GPU 00000000:18:00.0: Not Supported
Treating as warning and moving on.
All done.

所以我们需要使用的profile的配置方式

在刚安装完驱动后,先重启机器,重启后,启用显卡设备

sudo /usr/lib/nvidia/sriov-manage -e00:18:0000.0
sudo /usr/lib/nvidia/sriov-manage -e00:3b:0000.0
cd /sys/bus/pci/devices/0000:18:00.0/virtfn0/mdev_supported_types
for i in *; doecho""$(cat $i/name) available: $(cat $i/avail*); doneNVIDIA RTXA5000-1B available: 0 NVIDIA RTXA5000-2B available: 0 NVIDIA RTXA5000-1Q available: 0 NVIDIA RTXA5000-2Q available: 0 NVIDIA RTXA5000-3Q available: 0 NVIDIA RTXA5000-4Q available: 0 NVIDIA RTXA5000-6Q available: 0 NVIDIA RTXA5000-8Q available: 0 NVIDIA RTXA5000-12Q available: 0 NVIDIA RTXA5000-24Q available: 0 NVIDIA RTXA5000-1A available: 0 NVIDIA RTXA5000-2A available: 0 NVIDIA RTXA5000-3A available: 0 NVIDIA RTXA5000-4A available: 0 NVIDIA RTXA5000-6A available: 0 NVIDIA RTXA5000-8A available: 0 NVIDIA RTXA5000-12A available: 0 NVIDIA RTXA5000-24A available: 0 NVIDIA RTXA5000-4C available: 0 NVIDIA RTXA5000-6C available: 0 NVIDIA RTXA5000-8C available: 0 NVIDIA RTXA5000-12C available: 0 NVIDIA RTXA5000-24C available: 0uuidgen
f715f63c-0d00-4007-9c5a-b07b0c6c05de
sudoecho"f715f63c-0d00-4007-9c5a-b07b0c6c05de" > nvidia-666/create
sudo dmesg | tail
[...]
[ 3218.491843] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Adding to iommu group 322[ 3218.499700] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: group_id =322[ 3599.608540] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Removing from iommu group 322[ 3599.616753] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: detaching iommu
[ 3626.345530] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Adding to iommu group 322[ 3626.353383] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: group_id =322


相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
13天前
|
Linux Python
Linux 安装python3.7.6
本教程介绍在Linux系统上安装Python 3.7.6的步骤。首先使用`yum`安装依赖环境,包括zlib、openssl等开发库。接着通过`wget`下载Python 3.7.6源码包并解压。创建目标文件夹`/usr/local/python3`后,进入解压目录执行配置、编译和安装命令。最后设置软链接,使`python3`和`pip3`命令生效。
|
15天前
|
Ubuntu Linux
Linux 各发行版安装 ping 命令指南
如何在不同 Linux 发行版(Ubuntu/Debian、CentOS/RHEL/Fedora、Arch Linux、openSUSE、Alpine Linux)上安装 `ping` 命令,详细列出各发行版的安装步骤和验证方法,帮助系统管理员和网络工程师快速排查网络问题。
99 20
|
8天前
|
安全 Linux KVM
Linux虚拟化技术:从Xen到KVM
Xen和KVM是Linux平台上两种主要的虚拟化技术,各有优缺点和适用场景。通过对比两者的架构、性能、安全性、管理复杂性和硬件依赖性,可以更好地理解它们的适用场景和选择依据。无论是高性能计算、企业虚拟化还是云计算平台,合理选择和配置虚拟化技术是实现高效、稳定和安全IT环境的关键。
46 8
|
9天前
|
NoSQL 关系型数据库 MySQL
Linux安装jdk、mysql、redis
Linux安装jdk、mysql、redis
97 7
|
16天前
|
Unix Linux 编译器
UNIX/Linux 上的安装
UNIX/Linux 上的安装。
33 2
|
监控 Ubuntu Linux
Linux下使用KVM虚拟机安装华为OpenEuler系统
Linux下使用KVM虚拟机安装华为OpenEuler系统
Linux下使用KVM虚拟机安装华为OpenEuler系统
|
Linux 开发工具 KVM
|
2月前
|
Linux 网络安全 数据安全/隐私保护
Linux 超级强大的十六进制 dump 工具:XXD 命令,我教你应该如何使用!
在 Linux 系统中,xxd 命令是一个强大的十六进制 dump 工具,可以将文件或数据以十六进制和 ASCII 字符形式显示,帮助用户深入了解和分析数据。本文详细介绍了 xxd 命令的基本用法、高级功能及实际应用案例,包括查看文件内容、指定输出格式、写入文件、数据比较、数据提取、数据转换和数据加密解密等。通过掌握这些技巧,用户可以更高效地处理各种数据问题。
121 8