要在ModelScope中使用自己的数据集训练模型,您可以按照以下步骤操作。此过程涉及数据准备、模型选择、配置训练参数以及启动训练任务。
1. 数据准备
在训练之前,您需要准备好自己的数据集,并将其上传至阿里云的存储服务(如OSS)。以下是具体步骤:
1.1 创建存储空间
- 在进行微调或增量训练前,需创建一个OSS Bucket存储空间用于存放数据集。
- 登录阿里云控制台,进入OSS管理页面,创建一个新的存储空间(Bucket)。
1.2 上传数据集
- 将本地数据集文件上传至OSS存储空间:
- 在PAI控制台中,进入工作空间列表,选择目标工作空间。
- 单击快速开始 > Model Gallery,进入Model Gallery页面。
- 在模型详情页面,单击训练,然后在数据集配置区域选择OSS文件或目录。
- 单击上传文件,将本地数据文件上传至OSS路径。
1.3 数据格式要求
- 确保数据集格式符合模型的要求。例如,某些模型可能需要特定的JSON或CSV格式。如果不确定,请参考模型文档中的数据格式说明。
2. 模型选择
在Model Gallery中查找适合您业务需求的预训练模型:
2.1 查找模型
- 登录PAI控制台,进入Model Gallery页面。
- 根据领域和任务类型筛选模型。例如,如果您需要自然语言处理模型,可以选择相关领域的模型。
- 查看模型详情页面,了解模型的预训练数据集信息、参数量等,确保其与您的业务场景匹配。
2.2 确定微调方式
- Model Gallery支持多种微调方式,包括:
- SFT(监督微调):通过指定输入输出对模型参数进行微调。
- DPO(直接偏好优化):优化模型以符合人类偏好。
- 根据业务需求选择合适的微调方式。
3. 配置训练参数
在模型详情页面,单击训练,进入微调训练配置页面,完成以下参数设置:
3.1 基本信息
- 任务名称:为训练任务命名,便于后续管理。
- 最大运行时长:设置任务运行的最长时长。如果未设置,默认不限制运行时间。
3.2 数据集配置
- 训练数据集:选择已上传至OSS的数据集路径。
- 验证数据集(可选):添加验证数据集以评估模型性能。
3.3 输出配置
- 输出路径:选择云存储路径,用于保存训练生成的模型和日志文件。
- 如果已在工作空间中配置默认OSS存储路径,则会自动填充该路径。
3.4 计算资源配置
- 节点数量:根据模型规模选择计算节点数量。
- 资源规格:选择实例规格(建议所选规格的算力高于默认配置)。
- 对于参数量较大的模型(如Qwen-72B),建议使用显存更大的GPU(如灵骏智算资源)。
3.5 超参数配置
- 根据模型支持的超参数进行调整。例如,学习率、批次大小等。
- 如果不确定,可以使用默认值。
4. 启动训练任务
- 完成所有配置后,单击训练按钮,启动微调任务。
- 页面将跳转至任务详情页面,您可以在此查看训练任务的实时状态、日志和评估结果。
5. 模型评估与部署
5.1 模型评估
- 训练完成后,系统会自动生成评估指标(如精确率、召回率、F1值)。
- 如果评估结果不满足需求,可以重新调整数据集或超参数,再次进行训练。
5.2 模型部署
- 训练好的模型会自动注册到AI资产-模型管理中。
- 在模型管理页面,选择目标模型并单击部署,按照提示完成模型的在线服务部署。
重要提醒
- 费用说明:Model Gallery本身免费,但模型部署和训练会收取EAS和DLC费用,请提前了解计费规则。
- 数据质量:确保数据集的质量和格式符合要求,低质量数据可能导致训练效果不佳。
- 资源选择:对于大模型(如Qwen-72B),建议使用高性能GPU资源(如灵骏智算资源),否则可能导致训练失败。
通过以上步骤,您可以成功使用自己的数据集对ModelScope模型进行微调训练,并部署为在线服务。