如何使用服务器训练模型

简介: 本文介绍了如何使用服务器训练模型,包括获取服务器、访问服务器、上传文件、配置环境、训练模型和下载模型等步骤。适合没有GPU或不熟悉Linux服务器的用户。通过MobaXterm工具连接服务器,使用Conda管理环境,确保训练过程顺利进行。

如何使用服务器训练模型

大家好,这里是肆十二,之前有小伙伴反馈说自己的电脑只有cpu,没有GPU,也想要体验一下使用gpu训练模型,或者有的小伙伴反馈说自己所在的实验室提供了linux的服务器,但是不怎么会用,本期我们就来说说如何使用服务器来训练自己的模型。

获取服务器

如果你的实验室有服务器,那你就直接使用你们实验室的服务器即可,一般实验室的老师会提供给你服务器的IP地址、用户名以及密码这些信息,记住这些信息,后面我们将会使用到。

如果你没有服务器,你可以从网上租服务器,这些服务器有的是按照小时计费,有的是按照包年包月计费。具体哪里的好用大家可以去多查一些资料,基本流程都是一致的,你的最终目的都是为了得到这个服务器的ip、用户名以及密码,这里我就以我自己常用的网站为例进行说明。

image-20240925170214796

登录网站之后,你可以根据你的自身情况来挑选合适的显卡,注意这里是按照小时进行计费的,大家要根据自己的经济水平来进行选择,另外,这个网站应该是可以进行学生认证的,认证之后应该有对应的优惠,如果小伙伴感兴趣的话可以认证一哈。点击上面的按钮选择之后,这里要进行对应镜像的选择,考虑到大家可能在服务器上进行多个环境的配置,这里记得选择conda,后面我们可以使用conda来创建不同的虚拟环境以适应不同的项目。

image-20240925170557527

创建成功之后你将会再容器实例中查看到你的服务器。

image-20240925170652016

记住下面这个位置的内容,他包含了你服务器的ip地址、端口号以及密码,后面我们链接的时候将会使用到。

image-20240925170749312

访问服务器

之后就是访问服务器了,访问服务器的话这里推荐大家使用的工具是mobaxterm。

下载地址在这个位置:MobaXterm Xserver with SSH, telnet, RDP, VNC and X11 - Home Edition (mobatek.net)

大家下载这个版本即可,这个版本下载下来之后是一个压缩包,解压之后点击exe即可运行,非常方便。

image-20240925170953373

ok,首先我们还是先从我们的autodl上获取到我们服务器的信息

ssh -p 44638 root@connect.cqa1.seetacloud.com

abcxdfdsaf

启动mobaxterm,新建一个会话。

image-20240925171215340

输入你的用户名和密码,这个时候即可登录。注意,密码输入的时候是不会显示的,不是你键盘坏了,是他本来也就是不显示的。

image-20240925171406551

登录成功之后会出现类似于上图这样的信息,其中上面红色的方框是你经常来执行的目录,这个目录下有比较大的空间。

上传文件到服务器上

在上传文件之前,我先和你大概说下他的界面上的内容有什么,其中左侧是文件浏览器,在这个文件浏览器下你可以看到服务器上有的文件,中间这个黑框就是命令行了,和我们之前教程中使用的cmd是一个道理。

image-20240925172147311

我们上传文件在左侧进行上传即可,注意上传之前请保证你所处的目录尽量在一个空间比较大的目录下面。

我们进行示范的文件是我们行人检测那期栏目中的文件,其他的文件基本也是一致的,一般在项目目录下都会有一个readme的文件,你使用readme中的向导进行配置即可。

image-20240925172733743

在服务器上配置环境

一般在服务器上有几个常用的命令,比如unzip是解压,cd是打开目录,pwd是查看目录,cat是查看文件。

在服务器上配置环境的过程和之前在cmd中配置环境的过程是一致的。

  • 配置加速

    conda config --remove-key channels
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
    conda config --set show_channel_urls yes
    pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
    
  • 创建和激活虚拟环境

    conda create -n yolo python==3.8.5
    conda activate yolo
    

    image-20240925173309591

    image-20240925174314137

  • 安装torch

    conda install pytorch==1.8.0 torchvision torchaudio cudatoolkit=10.2 # 注意这条命令指定Pytorch的版本和cuda的版本
    conda install pytorch==1.10.0 torchvision torchaudio cudatoolkit=11.3 # 30系列以上显卡gpu版本pytorch安装指令
    conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cpuonly # CPU的小伙伴直接执行这条命令即可
    

    image-20240925174904709

    image-20240925180327434

  • 安装其他依赖库

    pip install -v -e .
    

安装完成之后出现successfully表示你这里的安装基本是没有什么问题的。

image-20240925181159830

搞定!

在服务器上训练模型

训练模型还是进入到我们的42_demo目录下面,和之前的视频一样执行脚本即可。

注意,训练模型之前需要先将我们的数据集路径配置好。

image-20240925181301327

image-20240925181356045

在服务器上执行脚本的时候直接python 要执行的文件即可,注意由于是黑框的缘故,可视化的内容是无法显示的,所以一般服务器我们只是用来做训练和测试。

image-20240925181509422

image-20240925181555452

训练过程中他会显示日志和模型存放的目录在哪里。

从服务器上下载训练好的模型使用

训练完毕之后我们直接从上面红色方框的目录将模型拖到本地即可使用。

剩下的就是你在你windows系统上进行执行了,看下面的教程即可。

使用YOLOv8训练自己的数据集(原理解析+数据标注说明+训练教程+图形化系统开发)_yolov8 训练自己的数据集-CSDN博客

目录
相关文章
|
2月前
|
存储 PyTorch API
NVIDIA Triton系列09-为服务器添加模型
本文介绍了如何为NVIDIA Triton模型仓库添加新模型。通过示例模型`inception_graphdef`的配置文件`config.pbtxt`,详细解释了模型名称、平台/后端名称、模型执行策略、最大批量值、输入输出节点及版本策略等配置项。内容涵盖了模型的基本要素和配置细节,帮助读者更好地理解和使用Triton服务器。
37 0
|
2月前
|
机器学习/深度学习 人工智能 并行计算
StableDiffusion-01本地服务器部署服务 10分钟上手 底显存 中等显存机器 加载模型测试效果 附带安装指令 多显卡 2070Super 8GB*2
StableDiffusion-01本地服务器部署服务 10分钟上手 底显存 中等显存机器 加载模型测试效果 附带安装指令 多显卡 2070Super 8GB*2
41 0
|
3月前
|
网络协议 数据处理 C语言
利用C语言基于poll实现TCP回声服务器的多路复用模型
此代码仅为示例,展示了如何基于 `poll`实现多路复用的TCP回声服务器的基本框架。在实际应用中,你可能需要对其进行扩展或修改,以满足具体的需求。
93 0
|
4月前
|
开发工具 git iOS开发
服务器配置Huggingface并git clone模型和文件
该博客提供了在服务器上配置Huggingface、安装必要的工具(如git-lfs和huggingface_hub库)、登录Huggingface以及使用git clone命令克隆模型和文件的详细步骤。
389 1
|
6月前
|
机器学习/深度学习 人工智能 网络安全
人工智能平台PAI产品使用合集之在本地可以成功进入模型流,但在服务器上无法进入,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
异构计算 弹性计算 并行计算
|
7月前
|
机器学习/深度学习 弹性计算 自然语言处理
【阿里云弹性计算】深度学习训练平台搭建:阿里云 ECS 与 GPU 实例的高效利用
【5月更文挑战第28天】阿里云ECS结合GPU实例为深度学习提供高效解决方案。通过弹性计算服务满足大量计算需求,GPU加速训练。用户可按需选择实例规格,配置深度学习框架,实现快速搭建训练平台。示例代码展示了在GPU实例上使用TensorFlow进行训练。优化包括合理分配GPU资源和使用混合精度技术,应用涵盖图像识别和自然语言处理。注意成本控制及数据安全,借助阿里云推动深度学习发展。
268 2
|
6月前
使用高性能服务器训练StableDiffusion——人物模型.safetensors
使用高性能服务器训练StableDiffusion——人物模型.safetensors
60 0
|
7月前
|
存储 弹性计算 人工智能
【阿里云弹性计算】AI 训练与推理在阿里云 ECS 上的高效部署与优化
【5月更文挑战第25天】阿里云ECS为AI训练和推理提供弹性、可扩展的计算资源,确保高性能和稳定性。通过灵活配置实例类型、利用存储服务管理数据,以及优化模型和代码,用户能实现高效部署和优化。自动伸缩、任务调度和成本控制等策略进一步提升效率。随着AI技术发展,阿里云ECS将持续助力科研和企业创新,驱动人工智能新时代。
195 0
|
3天前
|
弹性计算 运维 安全
阿里云轻量应用服务器与ECS的区别及选择指南
轻量应用服务器和云服务器ECS(Elastic Compute Service)是两款颇受欢迎的产品。本文将对这两者进行详细的对比,帮助用户更好地理解它们之间的区别,并根据自身需求做出明智的选择。