怎么用自己的数据集训练ModelScope模型 ?

怎么用自己的数据集训练ModelScope模型 ?

展开
收起
小小爱吃香菜 2024-02-14 08:53:46 110 分享 版权
阿里云 AI 助理回答

要在ModelScope中使用自己的数据集训练模型,您可以按照以下步骤操作。此过程涉及数据准备、模型选择、配置训练参数以及启动训练任务。


1. 数据准备

在训练之前,您需要准备好自己的数据集,并将其上传至阿里云的存储服务(如OSS)。以下是具体步骤:

1.1 创建存储空间

  • 在进行微调或增量训练前,需创建一个OSS Bucket存储空间用于存放数据集。
  • 登录阿里云控制台,进入OSS管理页面,创建一个新的存储空间(Bucket)。

1.2 上传数据集

  • 将本地数据集文件上传至OSS存储空间:
    1. 在PAI控制台中,进入工作空间列表,选择目标工作空间。
    2. 单击快速开始 > Model Gallery,进入Model Gallery页面。
    3. 在模型详情页面,单击训练,然后在数据集配置区域选择OSS文件或目录
    4. 单击上传文件,将本地数据文件上传至OSS路径。

1.3 数据格式要求

  • 确保数据集格式符合模型的要求。例如,某些模型可能需要特定的JSON或CSV格式。如果不确定,请参考模型文档中的数据格式说明。

2. 模型选择

在Model Gallery中查找适合您业务需求的预训练模型:

2.1 查找模型

  • 登录PAI控制台,进入Model Gallery页面。
  • 根据领域和任务类型筛选模型。例如,如果您需要自然语言处理模型,可以选择相关领域的模型。
  • 查看模型详情页面,了解模型的预训练数据集信息、参数量等,确保其与您的业务场景匹配。

2.2 确定微调方式

  • Model Gallery支持多种微调方式,包括:
    • SFT(监督微调):通过指定输入输出对模型参数进行微调。
    • DPO(直接偏好优化):优化模型以符合人类偏好。
  • 根据业务需求选择合适的微调方式。

3. 配置训练参数

在模型详情页面,单击训练,进入微调训练配置页面,完成以下参数设置:

3.1 基本信息

  • 任务名称:为训练任务命名,便于后续管理。
  • 最大运行时长:设置任务运行的最长时长。如果未设置,默认不限制运行时间。

3.2 数据集配置

  • 训练数据集:选择已上传至OSS的数据集路径。
  • 验证数据集(可选):添加验证数据集以评估模型性能。

3.3 输出配置

  • 输出路径:选择云存储路径,用于保存训练生成的模型和日志文件。
  • 如果已在工作空间中配置默认OSS存储路径,则会自动填充该路径。

3.4 计算资源配置

  • 节点数量:根据模型规模选择计算节点数量。
  • 资源规格:选择实例规格(建议所选规格的算力高于默认配置)。
  • 对于参数量较大的模型(如Qwen-72B),建议使用显存更大的GPU(如灵骏智算资源)。

3.5 超参数配置

  • 根据模型支持的超参数进行调整。例如,学习率、批次大小等。
  • 如果不确定,可以使用默认值。

4. 启动训练任务

  • 完成所有配置后,单击训练按钮,启动微调任务。
  • 页面将跳转至任务详情页面,您可以在此查看训练任务的实时状态、日志和评估结果。

5. 模型评估与部署

5.1 模型评估

  • 训练完成后,系统会自动生成评估指标(如精确率、召回率、F1值)。
  • 如果评估结果不满足需求,可以重新调整数据集或超参数,再次进行训练。

5.2 模型部署

  • 训练好的模型会自动注册到AI资产-模型管理中。
  • 在模型管理页面,选择目标模型并单击部署,按照提示完成模型的在线服务部署。

重要提醒

  • 费用说明:Model Gallery本身免费,但模型部署和训练会收取EAS和DLC费用,请提前了解计费规则。
  • 数据质量:确保数据集的质量和格式符合要求,低质量数据可能导致训练效果不佳。
  • 资源选择:对于大模型(如Qwen-72B),建议使用高性能GPU资源(如灵骏智算资源),否则可能导致训练失败。

通过以上步骤,您可以成功使用自己的数据集对ModelScope模型进行微调训练,并部署为在线服务。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理