显卡驱动、CUDA、NVIDIA Container Toolkit 内网离线安装教程

简介: 本文详解无网络环境下私有化AI部署的离线环境搭建:涵盖NVIDIA驱动(550.142)、CUDA 12.4、NVIDIA Container Toolkit及Docker的全流程离线安装与配置,适配双RTX 3090服务器,含依赖处理、冲突解决与完整验证步骤。

本文详细介绍在无法联网的服务器上,为私有化部署AI应用完成基础环境搭建的完整流程,包括显卡驱动、CUDA工具包、NVIDIA Container Toolkit及Docker的离线安装。

环境说明

  • 操作系统:
  • 内存: 64GB
  • Python版本: 3.10.12 (推荐) 或 3.12.3
  • 目标CUDA版本: 12.4
  • 目标显卡驱动: NVIDIA-Linux-x86_64-550.142
  • GPU: NVIDIA GeForce RTX 3090 24GB * 2

重要提示: 由于服务器无法访问互联网,所有安装包均需在可联网机器上下载后,传输至内网服务器进行离线安装。

一、NVIDIA 显卡驱动安装

步骤概览

  1. 查看显卡硬件信息
  2. 下载对应版本的驱动安装包
  3. 安装驱动并验证

详细步骤

1. 查看显卡信息

lspci | grep -i nvidia

该命令将输出显卡的PCI设备ID(如24c9),可通过该ID在NVIDIA官网或咨询AI助手查询具体显卡型号。

2. 下载驱动安装包

3. 安装驱动

sudo bash ./NVIDIA-Linux-x86_64-580.119.02.run

4. 验证安装

nvidia-smi

若命令成功执行并显示GPU状态信息,则表明驱动安装成功。

常见问题与解决方案

问题一:缺少系统依赖包
系统安装后需补充基础编译环境依赖。

解决方案(在可联网机器上操作):

# 下载g++及其依赖包
sudo apt-get --download-only install g++
# 下载的包位于 /var/cache/apt/archives/ 目录
cp -r /var/cache/apt/archives/ /data/g++/
#压缩成g++.tar
tar -cvf g++.tar /data/g++
# 将g++.tar传输至内网服务器后解压安装
cd /data/g++
sudo dpkg -i *.deb

gccmake的下载安装方法同上。

问题二:冲突驱动导致安装失败
需卸载系统原有驱动并禁用开源驱动nouveau

解决方案:

# 卸载原有NVIDIA驱动
sudo apt-get remove --purge nvidia*
# 禁用nouveau驱动
sudo vi /etc/modprobe.d/blacklist.conf

在文件末尾添加:
blacklist nouveau
options nouveau modeset=0

更新初始化ramfs并重启:
sudo update-initramfs -u
sudo reboot

二、CUDA 工具包安装

CUDA是NVIDIA推出的并行计算平台和编程模型,允许开发者利用GPU进行通用计算。

安装步骤

1. 下载安装包

2. 安装CUDA

wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run
sudo sh cuda_12.4.1_550.54.15_linux.run

注意: 安装过程中若提示是否安装驱动,若已完成驱动安装,请选择不安装。

3. 配置环境变量

sudo vi ~/.bashrc

在文件末尾添加:

export PATH="/usr/local/cuda-12.4/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH"

使配置生效:

source ~/.bashrc

4. 验证安装

nvcc -V

命令成功输出CUDA编译器版本信息即表示安装成功。


三、NVIDIA Container Toolkit 安装

NVIDIA Container Toolkit是使Docker容器能够使用GPU资源的关键组件。

安装步骤

安装步骤参考官网:https://docs.nvidia.com/datacenter/cloudnative/container-toolkit/latest/install-guide.html

1. 下载安装包

wget https://github.com/NVIDIA/nvidia-container-toolkit/releases/download/v1.17.3/nvidia-container-toolkit_1.17.3_deb_amd64.tar.gz

2. 安装

# 解压安装包
tar -zxvf nvidia-container-toolkit_1.17.3_deb_amd64.tar.gz
# 安装所有deb包
sudo dpkg -i *.deb

至此,GPU相关的基础环境配置已全部完成。


四、Docker 引擎安装

安装步骤

1. 离线下载Docker安装包
在可联网机器上操作:

sudo apt-get --download-only install docker.io
cp -r /var/cache/apt/archives/ /data/docker/
tar -cvf docker-io.tar /data/docker

2. 安装Docker
在内网服务器上操作:

# 解压安装包
tar xvf docker-io.tar
cd /data/docker
# 安装所有deb包
sudo dpkg -i *.deb
# 验证安装
docker version

3. (可选)配置Docker数据目录
如果默认磁盘空间不足,可修改Docker数据存储路径:

sudo mkdir -p /etc/docker
sudo vi /etc/docker/daemon.json

添加以下内容(将/data/docker替换为您的目标路径):

{
   
  "data-root": "/data/docker"
}

重新加载配置:

sudo systemctl daemon-reload

4. 设置Docker服务

# 启动Docker服务并设置开机自启
sudo systemctl enable docker --now

安装验证

完成以上所有步骤后,请依次执行以下命令进行最终验证:

  1. nvidia-smi - 验证显卡驱动
  2. nvcc -V - 验证CUDA工具包
  3. docker version - 验证Docker引擎
  4. docker run --rm --gpus all nvidia/cuda:12.4-base nvidia-smi - 验证Docker容器能否调用GPU

若所有命令均能正常执行,则说明您的内网服务器已具备运行AI应用的完整基础环境。

目录
相关文章
|
1月前
|
并行计算 API Docker
Docker+vLLM内网离线部署Qwen3 流程
本教程详解如何在A10四卡内网环境中,通过Docker+ vLLM离线部署Qwen3-32B/Qwen3-VL-30B-Instruct大模型。涵盖环境准备、镜像离线导入、模型下载、容器启动及参数调优,支持FP8/KV缓存/张量并行等高性能配置,助力安全高效私有化推理
2093 5
|
3月前
|
Linux Docker 容器
docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型
本文介绍在CentOS系统、A10 6×24G显卡环境下,通过Docker部署vLLM并启动Qwen3-VL-32B-Instruct大模型的完整流程,涵盖镜像拉取、容器配置、多卡并行与显存优化设置,支持32K上下文,附带启动脚本及调用验证示例。
5201 2
|
机器学习/深度学习 并行计算 Shell
docker 获取Nvidia 镜像 | cuda |cudnn
本文分享如何使用docker获取Nvidia 镜像,包括cuda10、cuda11等不同版本,cudnn7、cudnn8等,快速搭建深度学习环境。
8065 0
|
Kubernetes Linux Docker
银河麒麟v10离线安装docker二进制包
银河麒麟v10离线安装docker二进制包
3610 0
|
3月前
|
负载均衡 Docker Python
vLLM-Ascend 安装部署与环境配置指南
vLLM-Ascend 是 vLLM 项目专为华为昇腾 NPU 设计的硬件插件,支持主流大模型与多模态架构,提供高性能推理能力。项目结构清晰,涵盖核心算子、工具脚本与容器化部署方案,兼容单/多节点环境,助力高效构建昇腾上的 AI 推理服务。
1416 1
|
Linux
Centos7安装nvidia-container-toolkit
Centos7安装nvidia-container-toolkit
6286 0
|
2月前
|
缓存 网络安全 语音技术
docker安装部署FunASR
本指南详解FunASR在线语音识别服务的外网部署与内网迁移全流程:先在外网拉取Docker镜像、自动下载模型并启动服务(端口10095),验证成功后,将镜像和缓存模型打包导出;再于内网服务器导入镜像、解压模型、挂载运行,全程禁用SSL,支持热词与标点恢复,开箱即用。
836 3
|
3月前
|
Ubuntu Linux 测试技术
Linux系统离线安装Docker完整指南
本文详细介绍在Ubuntu 24等Linux系统中离线安装Docker的完整流程,适用于内网隔离环境。涵盖安装包下载、`docker.service`配置、安装与卸载脚本编写、权限设置、镜像测试及用户组配置,并包含docker-compose的离线部署方法,助力高效完成生产环境搭建。
4452 4
Linux系统离线安装Docker完整指南
|
2月前
|
Kubernetes 安全 开发工具
OpenCode 企业级 Docker 部署完整指南
OpenCode 是开源AI编程助手,支持多LLM(Claude/OpenAI/本地模型),提供终端/IDE/桌面多端协同开发。采用客户端架构,无服务端监听,强调安全合规:Docker部署默认非root、最小挂载、资源可控、网络隔离,适配企业级开发与审计要求。
2131 6
|
3月前
|
API Docker 异构计算
从 Docker Run 到生产级部署:vLLM推理大模型服务的 Docker Compose 完整实战指南
本文详解如何将vLLM大模型推理服务从基础docker run升级为生产级Docker Compose部署。涵盖GPU支持、网络隔离、配置参数化、API优化与压测实践,解决命名冲突、环境混乱等痛点,助力AI/DevOps工程师构建可维护、可扩展的容器化推理平台。

热门文章

最新文章