请问modelscope中,chatglm2_sft 3090ti训练不了什么原因?

请问modelscope中,chatglm2_sft 3090ti训练不了什么原因?错误信息为oom, 显存不够。我看lora也就训练了1m的参数。。 一个模型需要12.8g左右的显存。
2fa3416243912274c0684b1810e323c3.png

展开
收起
十一0204 2023-07-12 00:26:20 241 分享 版权
2 条回答
写回答
取消 提交回答
  • 根据您提供的信息,看起来您在运行 Modelscope 中的 chatglm2_sft 模型时遇到了显存不足的问题。这可能是因为该模型需要较大的显存来训练,而您使用的 3090ti 显卡的显存容量不足以满足需求。

    3090ti 显卡一般具有24 GB 的显存,但 chatglm2_sft 模型需要约 12.8 GB 的显存。如果您的显存容量小于这个要求,那么就会导致显存不足的错误。

    以下是一些可能的解决方案:

    1. 更换显卡:尝试使用具有更大显存容量的显卡来运行 chatglm2_sft 模型。例如,考虑使用具有更高显存容量的显卡,如 NVIDIA A100(40 GB 或 80 GB)。

    2. 减少批次大小:尝试减小每个训练批次的样本数量,从而降低显存的使用量。这可以通过调整训练脚本中的批次大小参数来实现。

    3. 使用分布式训练:如果可行,可以尝试使用分布式训练框架(如 Horovod)将训练任务分散在多个显卡上进行,并减少每个显卡上的显存压力。

    4. 减小模型大小:如果可能,可以尝试减小 chatglm2_sft 模型的大小,例如通过减少模型层数、特征维度或其他参数来降低显存需求。

    请注意,这些解决方案的可行性取决于具体的环境和资源可用性。确保您了解系统配置和资源限制,并根据实际情况进行调整。

    如果您仍然遇到问题,建议您联系 Modelscope 平台的支持团队,向他们报告此问题并寻求进一步的帮助和指导。

    2023-07-24 15:23:09
    赞同 展开评论
  • 北京阿里云ACE会长

    如果您在使用 ModelScope 平台中的 chatglm2_sft 模型进行训练时遇到显存不足的问题,可能是因为该模型的大小超出了您的 GPU 显存限制。

    根据您提供的信息,chatglm2_sft 模型需要大约 12.8GB 的显存才能训练,而您使用的 3090Ti 显卡只有 24GB 的显存。因此,如果您同时在同一显卡上运行多个模型或任务,可能会导致显存不足的情况。

    为了解决这个问题,您可以尝试以下几种方法:

    减小 batch size:在训练过程中,将 batch size 设置为较小的值,以减少每个 batch 的显存占用。

    分布式训练:使用分布式训练的方式,将计算任务分配到多个 GPU 上进行计算,以减少单个 GPU 的显存占用。

    使用更大的显卡:如果您的任务需要较大的显存,可以考虑使用更大的显卡,例如 3090Ti 的显存更大的版本。

    2023-07-18 09:02:45
    赞同 展开评论

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

热门讨论

热门文章

还有其他疑问?
咨询AI助理