如何使用服务器训练模型

简介: 本文介绍了如何使用服务器训练模型,包括获取服务器、访问服务器、上传文件、配置环境、训练模型和下载模型等步骤。适合没有GPU或不熟悉Linux服务器的用户。通过MobaXterm工具连接服务器,使用Conda管理环境,确保训练过程顺利进行。

如何使用服务器训练模型

大家好,这里是肆十二,之前有小伙伴反馈说自己的电脑只有cpu,没有GPU,也想要体验一下使用gpu训练模型,或者有的小伙伴反馈说自己所在的实验室提供了linux的服务器,但是不怎么会用,本期我们就来说说如何使用服务器来训练自己的模型。

获取服务器

如果你的实验室有服务器,那你就直接使用你们实验室的服务器即可,一般实验室的老师会提供给你服务器的IP地址、用户名以及密码这些信息,记住这些信息,后面我们将会使用到。

如果你没有服务器,你可以从网上租服务器,这些服务器有的是按照小时计费,有的是按照包年包月计费。具体哪里的好用大家可以去多查一些资料,基本流程都是一致的,你的最终目的都是为了得到这个服务器的ip、用户名以及密码,这里我就以我自己常用的网站为例进行说明。

image-20240925170214796

登录网站之后,你可以根据你的自身情况来挑选合适的显卡,注意这里是按照小时进行计费的,大家要根据自己的经济水平来进行选择,另外,这个网站应该是可以进行学生认证的,认证之后应该有对应的优惠,如果小伙伴感兴趣的话可以认证一哈。点击上面的按钮选择之后,这里要进行对应镜像的选择,考虑到大家可能在服务器上进行多个环境的配置,这里记得选择conda,后面我们可以使用conda来创建不同的虚拟环境以适应不同的项目。

image-20240925170557527

创建成功之后你将会再容器实例中查看到你的服务器。

image-20240925170652016

记住下面这个位置的内容,他包含了你服务器的ip地址、端口号以及密码,后面我们链接的时候将会使用到。

image-20240925170749312

访问服务器

之后就是访问服务器了,访问服务器的话这里推荐大家使用的工具是mobaxterm。

下载地址在这个位置:MobaXterm Xserver with SSH, telnet, RDP, VNC and X11 - Home Edition (mobatek.net)

大家下载这个版本即可,这个版本下载下来之后是一个压缩包,解压之后点击exe即可运行,非常方便。

image-20240925170953373

ok,首先我们还是先从我们的autodl上获取到我们服务器的信息

ssh -p 44638 root@connect.cqa1.seetacloud.com

abcxdfdsaf

启动mobaxterm,新建一个会话。

image-20240925171215340

输入你的用户名和密码,这个时候即可登录。注意,密码输入的时候是不会显示的,不是你键盘坏了,是他本来也就是不显示的。

image-20240925171406551

登录成功之后会出现类似于上图这样的信息,其中上面红色的方框是你经常来执行的目录,这个目录下有比较大的空间。

上传文件到服务器上

在上传文件之前,我先和你大概说下他的界面上的内容有什么,其中左侧是文件浏览器,在这个文件浏览器下你可以看到服务器上有的文件,中间这个黑框就是命令行了,和我们之前教程中使用的cmd是一个道理。

image-20240925172147311

我们上传文件在左侧进行上传即可,注意上传之前请保证你所处的目录尽量在一个空间比较大的目录下面。

我们进行示范的文件是我们行人检测那期栏目中的文件,其他的文件基本也是一致的,一般在项目目录下都会有一个readme的文件,你使用readme中的向导进行配置即可。

image-20240925172733743

在服务器上配置环境

一般在服务器上有几个常用的命令,比如unzip是解压,cd是打开目录,pwd是查看目录,cat是查看文件。

在服务器上配置环境的过程和之前在cmd中配置环境的过程是一致的。

  • 配置加速

    conda config --remove-key channels
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
    conda config --set show_channel_urls yes
    pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
    
  • 创建和激活虚拟环境

    conda create -n yolo python==3.8.5
    conda activate yolo
    

    image-20240925173309591

    image-20240925174314137

  • 安装torch

    conda install pytorch==1.8.0 torchvision torchaudio cudatoolkit=10.2 # 注意这条命令指定Pytorch的版本和cuda的版本
    conda install pytorch==1.10.0 torchvision torchaudio cudatoolkit=11.3 # 30系列以上显卡gpu版本pytorch安装指令
    conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cpuonly # CPU的小伙伴直接执行这条命令即可
    

    image-20240925174904709

    image-20240925180327434

  • 安装其他依赖库

    pip install -v -e .
    

安装完成之后出现successfully表示你这里的安装基本是没有什么问题的。

image-20240925181159830

搞定!

在服务器上训练模型

训练模型还是进入到我们的42_demo目录下面,和之前的视频一样执行脚本即可。

注意,训练模型之前需要先将我们的数据集路径配置好。

image-20240925181301327

image-20240925181356045

在服务器上执行脚本的时候直接python 要执行的文件即可,注意由于是黑框的缘故,可视化的内容是无法显示的,所以一般服务器我们只是用来做训练和测试。

image-20240925181509422

image-20240925181555452

训练过程中他会显示日志和模型存放的目录在哪里。

从服务器上下载训练好的模型使用

训练完毕之后我们直接从上面红色方框的目录将模型拖到本地即可使用。

剩下的就是你在你windows系统上进行执行了,看下面的教程即可。

使用YOLOv8训练自己的数据集(原理解析+数据标注说明+训练教程+图形化系统开发)_yolov8 训练自己的数据集-CSDN博客

目录
相关文章
|
6月前
|
存储 人工智能 边缘计算
当 AI 进入「算力密集时代」:你的服务器能跑通大模型吗?
本文深入探讨AI服务器在技术落地中的核心瓶颈问题,结合实战经验解析从模型训练到端侧部署的算力优化策略。内容涵盖三大典型场景的算力需求差异、GPU服务器选型的五大反直觉真相、实战优化方法(如混合精度训练与硬件资源监控),以及边缘AI部署挑战和解决方案。同时提供算力弹性扩展策略、模型生命周期管理及合规性建议,帮助读者构建可持续发展的算力体系。文末附有获取更多资源的指引。
362 17
|
6月前
|
存储 弹性计算 测试技术
10分钟私有部署QwQ-32B模型,像购买Ecs实例一样快捷
虽然阿里云提供了基于 IaaS 部署 QwQ-32B 模型的方式,但传统的基于IaaS的部署方式需要用户自行配置环境、安装依赖、优化硬件资源,并解决复杂的网络与存储问题,整个流程不仅耗时耗力,还容易因操作失误导致各种不可预见的问题。 因此,阿里云计算巢提供了基于ECS镜像与VLLM的大模型一键部署方案,通过ECS镜像打包标准环境,通过Ros模版实现云资源与大模型的一键部署,用户无需关心模型部署运行的标准环境与底层云资源编排,10分钟即可部署使用QwQ-32B模型,15分钟即可部署使用Deepseek-R1-70B模型。
|
8月前
|
人工智能 负载均衡 数据可视化
阿里云出手了,DeepSeek服务器拒绝繁忙,免费部署DeepSeek模型671B满血版
阿里云推出免费部署DeepSeek模型671B满血版服务,通过百炼大模型平台,用户无需编码,最快5分钟、最低0元即可完成部署。平台提供100万免费Token,支持DeepSeek-R1和DeepSeek-V3等多款模型调用,有效解决服务器繁忙问题。新手零基础也能轻松上手,享受高效稳定的API调用和自动弹性扩展功能。教程涵盖开通服务、获取API-KEY及配置Chatbox客户端等步骤,详细指引助您快速实现DeepSeek自由。
500 18
|
12月前
|
存储 PyTorch API
NVIDIA Triton系列09-为服务器添加模型
本文介绍了如何为NVIDIA Triton模型仓库添加新模型。通过示例模型`inception_graphdef`的配置文件`config.pbtxt`,详细解释了模型名称、平台/后端名称、模型执行策略、最大批量值、输入输出节点及版本策略等配置项。内容涵盖了模型的基本要素和配置细节,帮助读者更好地理解和使用Triton服务器。
198 0
|
12月前
|
机器学习/深度学习 人工智能 并行计算
StableDiffusion-01本地服务器部署服务 10分钟上手 底显存 中等显存机器 加载模型测试效果 附带安装指令 多显卡 2070Super 8GB*2
StableDiffusion-01本地服务器部署服务 10分钟上手 底显存 中等显存机器 加载模型测试效果 附带安装指令 多显卡 2070Super 8GB*2
217 0
|
开发工具 git iOS开发
服务器配置Huggingface并git clone模型和文件
该博客提供了在服务器上配置Huggingface、安装必要的工具(如git-lfs和huggingface_hub库)、登录Huggingface以及使用git clone命令克隆模型和文件的详细步骤。
1460 1
|
网络协议 数据处理 C语言
利用C语言基于poll实现TCP回声服务器的多路复用模型
此代码仅为示例,展示了如何基于 `poll`实现多路复用的TCP回声服务器的基本框架。在实际应用中,你可能需要对其进行扩展或修改,以满足具体的需求。
230 0
使用高性能服务器训练StableDiffusion——人物模型.safetensors
使用高性能服务器训练StableDiffusion——人物模型.safetensors
210 0
|
13天前
|
弹性计算 运维 安全
阿里云轻量应用服务器详解——2025升级到200M峰值带宽
阿里云轻量应用服务器(Simple Application Server)是面向个人开发者及中小企业的轻量级云服务,适用于网站搭建、开发测试、小程序后端等场景。2025年升级至200M峰值带宽,支持WordPress、宝塔面板、Docker等应用镜像一键部署,操作简单,运维便捷。按套餐售卖,不支持自定义CPU内存配置,价格低至38元/年起,是快速上云的高性价比选择。
|
1月前
|
存储 缓存 数据挖掘
阿里云目前最便宜云服务器介绍:38元、99元、199元性能,选购攻略参考
轻量应用服务器2核2G峰值200M带宽38元1年;云服务器经济型e实例2核2G3M带宽99元1年;云服务器通用算力型u1实例2核4G5M带宽199元1年。对于还未使用过阿里云服务器的用户来说,大家也不免有些疑虑,这些云服务器性能究竟如何?它们适用于哪些场景?能否满足自己的使用需求呢?接下来,本文将为您全方位介绍这几款云服务器,以供您了解及选择参考。

热门文章

最新文章