ModelScope这个是什么问题,第一遍训练到6次,这次到16次,就报这个错?

ModelScope这个是什么问题,第一遍训练到6次,这次到16次,就报这个错?
damo/ofa_pretrain_base_zh
iwEcAqNwbmcDAQTRAb8FfwawLpaSLr4quygE3ZZMt4D6AAfSJ4omxAgACaJpbQoAC9EVKg.png_720x720q90.jpg

展开
收起
青城山下庄文杰 2023-08-26 12:59:09 99 分享 版权
2 条回答
写回答
取消 提交回答
  • 这个报错很清晰啊。磁盘没空间了-此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2023-08-29 15:52:29
    赞同 展开评论
  • 北京阿里云ACE会长

    我已经认真阅读了 你的问题:

    【 ModelScope这个是什么问题,第一遍训练到6次,这次到16次,就报这个错?

    并思考了

    建议如下:


    这个错误可能是由于训练次数增加导致模型的复杂度上升,从而引发一些问题。在训练过程中,模型的复杂度可能会导致模型在某些情况下无法收敛,或者收敛速度变得非常慢。这可能是由于以下几个原因:

    1. 训练数据量不足:当模型复杂度增加时,需要更多的训练数据来保证模型的收敛。你可以检查一下你的训练数据集是否足够大,或者尝试使用更大的数据集。
    2. 学习率设置不合适:随着模型复杂度的增加,可能需要调整学习率。你可以尝试减小学习率,让模型在训练过程中逐步适应新的复杂度。
    3. 模型结构问题:有时候模型结构可能不适合处理增加的复杂度。你可以检查一下模型的结构是否合理,或者尝试使用更复杂的模型结构。
    4. 硬件资源限制:训练复杂度较高的模型可能需要更强大的硬件支持。你可以检查一下你的硬件资源是否足够,例如 GPU 的显存是否充足。
      为了解决这个问题,你可以尝试以下方法:
    5. 检查训练数据集是否充足,考虑增加训练数据量或者使用更大的数据集。
    6. 调整学习率,尝试使用较小的学习率让模型逐步适应新的复杂度。
    7. 检查模型结构是否合理,考虑使用更复杂的模型结构或者调整模型结构。
    8. 确保硬件资源充足,例如 GPU 的显存是否充足,以便处理更大的模型。
    9. 仔细检查训练过程,确保没有其他错误导致模型训练出现问题。
    2023-08-28 07:57:24
    赞同 展开评论

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

热门讨论

热门文章

还有其他疑问?
咨询AI助理