本文详细介绍在无法联网的服务器上,为私有化部署AI应用完成基础环境搭建的完整流程,包括显卡驱动、CUDA工具包、NVIDIA Container Toolkit及Docker的离线安装。
环境说明
- 操作系统:
- 内存: 64GB
- Python版本: 3.10.12 (推荐) 或 3.12.3
- 目标CUDA版本: 12.4
- 目标显卡驱动: NVIDIA-Linux-x86_64-550.142
- GPU: NVIDIA GeForce RTX 3090 24GB * 2
重要提示: 由于服务器无法访问互联网,所有安装包均需在可联网机器上下载后,传输至内网服务器进行离线安装。
一、NVIDIA 显卡驱动安装
步骤概览
- 查看显卡硬件信息
- 下载对应版本的驱动安装包
- 安装驱动并验证
详细步骤
1. 查看显卡信息
lspci | grep -i nvidia
该命令将输出显卡的PCI设备ID(如24c9),可通过该ID在NVIDIA官网或咨询AI助手查询具体显卡型号。
2. 下载驱动安装包
- 访问NVIDIA官网地址:https://www.nvidia.cn/drivers/lookup/
- 根据显卡型号选择对应的驱动版本
- 下载得到文件:
NVIDIA-Linux-x86_64-580.119.02.run

3. 安装驱动
sudo bash ./NVIDIA-Linux-x86_64-580.119.02.run
4. 验证安装
nvidia-smi
若命令成功执行并显示GPU状态信息,则表明驱动安装成功。
常见问题与解决方案
问题一:缺少系统依赖包
系统安装后需补充基础编译环境依赖。
解决方案(在可联网机器上操作):
# 下载g++及其依赖包
sudo apt-get --download-only install g++
# 下载的包位于 /var/cache/apt/archives/ 目录
cp -r /var/cache/apt/archives/ /data/g++/
#压缩成g++.tar
tar -cvf g++.tar /data/g++
# 将g++.tar传输至内网服务器后解压安装
cd /data/g++
sudo dpkg -i *.deb
gcc和make的下载安装方法同上。
问题二:冲突驱动导致安装失败
需卸载系统原有驱动并禁用开源驱动nouveau。
解决方案:
# 卸载原有NVIDIA驱动
sudo apt-get remove --purge nvidia*
# 禁用nouveau驱动
sudo vi /etc/modprobe.d/blacklist.conf
在文件末尾添加:
blacklist nouveau
options nouveau modeset=0
更新初始化ramfs并重启:
sudo update-initramfs -u
sudo reboot
二、CUDA 工具包安装
CUDA是NVIDIA推出的并行计算平台和编程模型,允许开发者利用GPU进行通用计算。
安装步骤
1. 下载安装包
- 访问官网地址:https://developer.nvidia.cn/cuda-downloads
- 选择与驱动兼容的版本(本例为12.4.1)
- 下载安装包:
cuda_12.4.1_550.54.15_linux.run
2. 安装CUDA
wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run
sudo sh cuda_12.4.1_550.54.15_linux.run
注意: 安装过程中若提示是否安装驱动,若已完成驱动安装,请选择不安装。
3. 配置环境变量
sudo vi ~/.bashrc
在文件末尾添加:
export PATH="/usr/local/cuda-12.4/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH"
使配置生效:
source ~/.bashrc
4. 验证安装
nvcc -V
命令成功输出CUDA编译器版本信息即表示安装成功。
三、NVIDIA Container Toolkit 安装
NVIDIA Container Toolkit是使Docker容器能够使用GPU资源的关键组件。
安装步骤
安装步骤参考官网:https://docs.nvidia.com/datacenter/cloudnative/container-toolkit/latest/install-guide.html
1. 下载安装包
wget https://github.com/NVIDIA/nvidia-container-toolkit/releases/download/v1.17.3/nvidia-container-toolkit_1.17.3_deb_amd64.tar.gz
2. 安装
# 解压安装包
tar -zxvf nvidia-container-toolkit_1.17.3_deb_amd64.tar.gz
# 安装所有deb包
sudo dpkg -i *.deb
至此,GPU相关的基础环境配置已全部完成。
四、Docker 引擎安装
安装步骤
1. 离线下载Docker安装包
在可联网机器上操作:
sudo apt-get --download-only install docker.io
cp -r /var/cache/apt/archives/ /data/docker/
tar -cvf docker-io.tar /data/docker
2. 安装Docker
在内网服务器上操作:
# 解压安装包
tar xvf docker-io.tar
cd /data/docker
# 安装所有deb包
sudo dpkg -i *.deb
# 验证安装
docker version
3. (可选)配置Docker数据目录
如果默认磁盘空间不足,可修改Docker数据存储路径:
sudo mkdir -p /etc/docker
sudo vi /etc/docker/daemon.json
添加以下内容(将/data/docker替换为您的目标路径):
{
"data-root": "/data/docker"
}
重新加载配置:
sudo systemctl daemon-reload
4. 设置Docker服务
# 启动Docker服务并设置开机自启
sudo systemctl enable docker --now
安装验证
完成以上所有步骤后,请依次执行以下命令进行最终验证:
nvidia-smi- 验证显卡驱动nvcc -V- 验证CUDA工具包docker version- 验证Docker引擎docker run --rm --gpus all nvidia/cuda:12.4-base nvidia-smi- 验证Docker容器能否调用GPU
若所有命令均能正常执行,则说明您的内网服务器已具备运行AI应用的完整基础环境。