开发者社区 > ModelScope模型即服务 > 正文

modelscope-funasr微调时,epoch没有结束就断掉了是什么原因呢?有人遇到这种错误吗

modelscope-funasr微调时,epoch没有结束就断掉了是什么原因呢?有人遇到这种错误吗?
e277be3edd8be3898cc7f716ebe3ee28.png

展开
收起
嘟嘟嘟嘟嘟嘟 2024-01-05 06:54:49 104 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    FunASR在微调过程中,如果epoch未结束就断掉,可能的原因有很多。一个常见的情况是过拟合,这通常是由于模型在训练集上表现良好,但在验证集上的表现没有得到改善。为此,你可以尝试使用早停法(Early Stopping),设定一个阈值,当连续几个epoch的验证集性能没有提升时,就提前结束训练。

    另外,如果你使用的是多GPU进行解码,可能需要检查是否正确设置了--gpuid_list参数,以确保所有的GPU都在正常工作。同时,也需要注意检查数据路径和模型路径是否正确。

    此外,硬件问题也可能导致训练过程中断。比如显卡驱动不兼容或存在问题可能导致训练过程中程序崩溃。在这种情况下,你需要更新显卡驱动程序,或者尝试在其他设备上运行以排除硬件问题。

    2024-01-06 13:06:20
    赞同 展开评论 打赏
  • 模型训练过程中epoch未结束就断掉,可能的原因有很多。常见的情况包括:数据集问题、学习率设置不合适、内存不足等。对于你的情况,可能是由于GPU驱动的问题导致的。

    首先,你需要检查你的数据集是否存在问题,例如路径设置是否正确,数据格式是否与模型兼容等。同时,你也需要查看代码中微调训练的参数设置是否正确,例如output_dirdata_dir等。

    其次,如果你在使用多个GPU进行训练,需要确保所有GPU的驱动都已经正确安装并且能够正常工作。

    此外,你还可以采取一些策略来避免模型过拟合或者崩掉。比如使用早停法,设定一个阈值,如果在连续几个 epoch 中验证集的表现没有提升,就可以提前结束训练。

    2024-01-05 09:24:43
    赞同 展开评论 打赏
  • 为了debug,故意设计只训练几个batch就break。此回答整理自钉群“modelscope-funasr社区交流”

    2024-01-05 09:03:03
    赞同 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载