Linux Enterprise Server 15 SP3配置安装kvm nvidia vGPU

简介: Linux Enterprise Server 15 SP3配置安装kvm nvidia vGPU

参考链接

配置过程

配置要求

  • BIOS启用SRIOV
  • BIOS启用Above 4G encoding
  • BIOS启用Intel VT-d

更详细信息可以参考一下链接

然后启用IOMMU,添加到grub上

cat /proc/cmdline
BOOT_IMAGE=/boot/vmlinuz-default [...] intel_iommu=on [...]

假如没有上述iommu字段,那就要添加/etc/default/grub

  • Intel cpu
GRUB_CMDLINE_LINUX="intel_iommu=on"
  • amd cpu
GRUB_CMDLINE_LINUX="amd_iommu=on"

生成一个新的grub文件

sudo grub2-mkconfig -o /boot/grub2/grub.cfg

然后禁用 nouveau kernel module

echo"blacklist nouveau" > /etc/modprobe.d/50-blacklist.conf

重启

sudo systemctl reboot


安装

在安装依赖包前,建议先安装国内源,且把旧的源删除

zypper clean
zypper ref

清理缓存


安装 kernel-default-devel

zypper update
zypper install kernel-default-devel dkms
zypper install -t pattern devel_C_C++ devel_kernely

切换init模式

sudo init 3

安装vGPU驱动,这个驱动跟常规的驱动不一样,跟厂商那边获取

chmod+x NVIDIA-Linux-x86_64-470.82-vgpu-kvm.run
./NVIDIA-Linux-x86_64-470.82-vgpu-kvm.run --dkms

查看是否安装成功,假如能正确显示显卡信息,则代表安装成功

localhost:~ # nvidia-smiTue Dec  716:14:42 2021+-----------------------------------------------------------------------------+| NVIDIA-SMI 470.82       Driver Version: 470.82       CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA RTX A5000    On   | 00000000:18:00.0 Off |                  Off |
| 52%   78C    P0   203W / 230W |  23936MiB / 24258MiB |     89%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+|   1  NVIDIA RTX A5000    On   | 00000000:3B:00.0 Off |                  Off |
| 54%   78C    P0   199W / 230W |  23936MiB / 24258MiB |     74%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------++-----------------------------------------------------------------------------+| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A     14174    C+G   vgpu                            23936MiB |
|    1   N/A  N/A     14174    C+G   vgpu                            23936MiB |
+-----------------------------------------------------------------------------+

还需要查看nvidia module

localhost:~ # lsmod | grep nvidianvidia_vgpu_vfio       6963236nvidia              353648643722mdev                   286722 vfio_mdev,nvidia_vgpu_vfio
vfio                   409608 vfio_mdev,nvidia_vgpu_vfio,vfio_iommu_type1
drm                   6144007 drm_kms_helper,drm_vram_helper,ast,nvidia,drm_ttm_helper,ttm

nvidia vGPU有两种模式:

  • profile
  • mig

首先A5000不支持MIG模式,以下输出信息可知

localhost:~ # nvidia-smi -i 0 -mig 1Unable to enable MIG Mode for GPU 00000000:18:00.0: Not Supported
Treating as warning and moving on.
All done.

所以我们需要使用的profile的配置方式

在刚安装完驱动后,先重启机器,重启后,启用显卡设备

sudo /usr/lib/nvidia/sriov-manage -e00:18:0000.0
sudo /usr/lib/nvidia/sriov-manage -e00:3b:0000.0
cd /sys/bus/pci/devices/0000:18:00.0/virtfn0/mdev_supported_types
for i in *; doecho""$(cat $i/name) available: $(cat $i/avail*); doneNVIDIA RTXA5000-1B available: 0 NVIDIA RTXA5000-2B available: 0 NVIDIA RTXA5000-1Q available: 0 NVIDIA RTXA5000-2Q available: 0 NVIDIA RTXA5000-3Q available: 0 NVIDIA RTXA5000-4Q available: 0 NVIDIA RTXA5000-6Q available: 0 NVIDIA RTXA5000-8Q available: 0 NVIDIA RTXA5000-12Q available: 0 NVIDIA RTXA5000-24Q available: 0 NVIDIA RTXA5000-1A available: 0 NVIDIA RTXA5000-2A available: 0 NVIDIA RTXA5000-3A available: 0 NVIDIA RTXA5000-4A available: 0 NVIDIA RTXA5000-6A available: 0 NVIDIA RTXA5000-8A available: 0 NVIDIA RTXA5000-12A available: 0 NVIDIA RTXA5000-24A available: 0 NVIDIA RTXA5000-4C available: 0 NVIDIA RTXA5000-6C available: 0 NVIDIA RTXA5000-8C available: 0 NVIDIA RTXA5000-12C available: 0 NVIDIA RTXA5000-24C available: 0uuidgen
f715f63c-0d00-4007-9c5a-b07b0c6c05de
sudoecho"f715f63c-0d00-4007-9c5a-b07b0c6c05de" > nvidia-666/create
sudo dmesg | tail
[...]
[ 3218.491843] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Adding to iommu group 322[ 3218.499700] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: group_id =322[ 3599.608540] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Removing from iommu group 322[ 3599.616753] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: detaching iommu
[ 3626.345530] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: Adding to iommu group 322[ 3626.353383] vfio_mdev f715f63c-0d00-4007-9c5a-b07b0c6c05de: MDEV: group_id =322


相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
4月前
|
安全 Linux 数据安全/隐私保护
Red Hat Enterprise Linux 9.6 (x86_64, aarch64) - 红帽企业 Linux (RHEL)
Red Hat Enterprise Linux 9.6 (x86_64, aarch64) - 红帽企业 Linux (RHEL)
481 36
Red Hat Enterprise Linux 9.6 (x86_64, aarch64) - 红帽企业 Linux (RHEL)
|
4月前
|
关系型数据库 MySQL Java
安装和配置JDK、Tomcat、MySQL环境,以及如何在Linux下更改后端端口。
遵循这些步骤,你可以顺利完成JDK、Tomcat、MySQL环境的安装和配置,并在Linux下更改后端端口。祝你顺利!
297 11
|
4月前
|
人工智能 安全 Linux
Red Hat Enterprise Linux 10 正式版发布 - 红帽企业 Linux (RHEL)
Red Hat Enterprise Linux 10 正式版发布 - 红帽企业 Linux (RHEL)
444 0
Red Hat Enterprise Linux 10 正式版发布 - 红帽企业 Linux (RHEL)
|
3月前
|
Linux 网络安全 开发工具
在Linux下配置gitee与Github的远程仓库
注意,git push后,是输入你的账号与密码。这个步骤可以通过特殊设置省去,但是一开始还是不要太省。
141 0
|
5月前
|
安全 Linux 网络安全
在Linux(CentOS和AWS)上安装更新的git2的方法并配置github-ssh
经过以上这些步骤,你现在就能在GitHub上顺利往返,如同海洋中的航海者自由驰骋。欢迎你加入码农的世界,享受这编程的乐趣吧!
187 10
|
5月前
|
人工智能 Kubernetes Ubuntu
linux配置IP
linux配置IP
425 1
|
6月前
|
监控 Shell Linux
Android调试终极指南:ADB安装+多设备连接+ANR日志抓取全流程解析,覆盖环境变量配置/多设备调试/ANR日志分析全流程,附Win/Mac/Linux三平台解决方案
ADB(Android Debug Bridge)是安卓开发中的重要工具,用于连接电脑与安卓设备,实现文件传输、应用管理、日志抓取等功能。本文介绍了 ADB 的基本概念、安装配置及常用命令。包括:1) 基本命令如 `adb version` 和 `adb devices`;2) 权限操作如 `adb root` 和 `adb shell`;3) APK 操作如安装、卸载应用;4) 文件传输如 `adb push` 和 `adb pull`;5) 日志记录如 `adb logcat`;6) 系统信息获取如屏幕截图和录屏。通过这些功能,用户可高效调试和管理安卓设备。
|
编解码 并行计算 Linux
LINUX下,ffmpeg增加NVIDIA硬件编解码的步骤及解决办法
LINUX下,ffmpeg增加NVIDIA硬件编解码的步骤及解决办法
761 0
|
2月前
|
监控 Linux 网络安全
Linux命令大全:从入门到精通
日常使用的linux命令整理
586 13
|
3月前
|
Linux 网络安全 数据安全/隐私保护
使用Linux系统的mount命令挂载远程服务器的文件夹。
如此一来,你就完成了一次从你的Linux发车站到远程服务器文件夹的有趣旅行。在这个技术之旅中,你既探索了新地方,也学到了如何桥接不同系统之间的距离。
353 21