modelscope的问题怎么处理?

数据集 原来是1.jsonl 2.jsonl,使用续训 增加了 3.jsonl 4.jsonl 5.jsonl , 起来直接就进入到53%了 而且Train: 53%|█████▎ | 13866/26190 [27:17<16:55:18, 4.94s/it] 而且还会提示 best_model modelscope的问题怎么处理?

展开
收起
小小爱吃香菜 2024-04-16 19:17:39 59 分享 版权
阿里云 AI 助理回答

根据您提供的信息,数据集在续训过程中增加了新的文件(3.jsonl、4.jsonl 和 5.jsonl),并且训练进度直接跳到了 53%。这种情况可能与以下几个因素有关:


1. 续训机制与数据加载

续训(Continual Pre-Training 或 Fine-Tuning)通常会基于之前训练的模型权重和状态继续训练。如果新增的数据集文件(如 3.jsonl、4.jsonl 和 5.jsonl)被正确加载到训练流程中,系统可能会重新计算总训练数据量,并将之前的训练进度合并到当前进度中。

  • 关键点:续训时,系统会将新旧数据集合并为一个整体数据集进行训练。因此,训练进度百分比是基于合并后的总数据量计算的。
  • 建议检查
    • 确认新增的 JSONL 文件是否符合格式要求(如 CPT、SFT 或 DPO 的数据格式)。
    • 检查是否所有数据文件都被正确加载到训练任务中。

2. 数据集规模与进度计算

训练进度条显示 Train: 53%|█████▎ | 13866/26190 [27:17],这表明当前已处理了 13866 条样本,总样本数为 26190。新增的 JSONL 文件可能显著增加了总数据量,从而导致进度百分比的变化。

  • 关键点:训练进度是动态计算的,公式为:
    当前进度 = 已处理样本数 / 总样本数
    

    如果新增数据文件包含大量样本,总样本数会增加,而之前已完成的样本数占比会相应减少。

  • 建议检查
    • 确认每个 JSONL 文件的样本数量,确保数据分布合理。
    • 验证是否有重复数据或无效数据影响了总样本数。

3. 数据预处理与缓存

在续训过程中,系统可能会对新增数据进行预处理(如分词、向量化等),并将结果缓存以加速后续训练。如果预处理阶段已经完成部分工作,系统可能会直接跳过这些步骤并更新训练进度。

  • 关键点:数据预处理的结果可能会影响训练进度的初始值。
  • 建议检查
    • 查看日志中是否有数据预处理的相关记录。
    • 确保新增数据文件的格式与之前一致,避免因格式问题导致预处理失败。

4. 训练配置与参数调整

续训时,训练配置(如学习率、批次大小、优化器状态等)可能会影响训练进度的计算方式。如果新增数据文件较大,系统可能会自动调整训练参数以适应新的数据规模。

  • 关键点:续训时需要保持训练配置的一致性,否则可能导致进度异常。
  • 建议检查
    • 确认续训时使用的配置文件是否与之前一致。
    • 检查是否有手动调整的参数(如批次大小或学习率)影响了训练进度。

5. 潜在问题与解决方案

如果上述检查均无误,但仍出现进度异常,可能是以下原因导致的:

(1)数据加载错误

  • 新增的 JSONL 文件可能存在格式问题或内容缺失,导致系统未能正确解析。
  • 解决方案:使用工具验证 JSONL 文件的格式是否符合要求(如 ChatML 格式或纯文本格式)。

(2)缓存不一致

  • 续训时,缓存文件可能未正确更新,导致系统误判训练进度。
  • 解决方案:清除缓存并重新启动训练任务。

(3)硬件资源不足

  • 如果新增数据文件较大,可能导致内存或显存不足,进而影响训练进度。
  • 解决方案:检查硬件资源使用情况,必要时增加资源分配。

总结与操作建议

  1. 确认数据格式:确保新增的 JSONL 文件符合训练任务所需的格式(如 CPT、SFT 或 DPO 格式)。
  2. 检查数据分布:统计每个 JSONL 文件的样本数量,确保数据分布合理且无重复。
  3. 验证训练配置:保持续训时的配置一致性,避免因参数调整导致进度异常。
  4. 查看日志信息:通过日志排查数据加载、预处理及训练过程中的潜在问题。

如果问题仍未解决,请提供更多详细信息(如 JSONL 文件样例、训练配置文件及日志内容),以便进一步分析。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理