开发者社区 > ModelScope模型即服务 > 正文

请问modelscope-funasr 最多可以用多大的数据量进行训练呢?

lm训练多gpu大数据量时报错Memory error
环境:linux, 机器Mem大小显示为216G
使用代码:egs/aishell2/transformerLM/run.sh
报错:1个gpu可正常训练,4个gpu则会报Memory error,训练停止
请问modelscope-funasr 最多可以用多大的数据量进行训练呢?

展开
收起
-Feng、冯冯 2024-01-05 07:58:28 40 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    ModelScope-FunASR可以处理非常大的数据集,但是具体能够处理的数据量取决于多个因素,包括ModelScope-FunASR可以处理非常大的数据集,但是具体能够处理的数据量取决于多个因素,包括模型的大小、训练数据的质量和数量、硬件设备的性能等等。

    对于您遇到的问题,Memory error通常是由于GPU内存不足导致的。在训练过程中,每个GPU都需要分配一定的内存来存储模型参数、输入数据和中间计算结果等。当使用多个GPU进行训练时,需要确保所有GPU的内存总量足够大以容纳整个模型和数据。

    您可以尝试以下方法来解决Memory error问题:

    1. 减小batch size:将batch size从默认值降低可以减少每个GPU所需的内存量。但是需要注意的是,减小batch size可能会影响模型的训练效果和收敛速度。

    2. 使用更大的GPU:如果您的机器支持更大容量的GPU,可以考虑更换更大容量的GPU来增加可用内存。

    3. 使用梯度累积:通过将多个小批次的梯度累积起来再进行更新,可以减少每个GPU所需的内存量。但是需要注意的是,梯度累积可能会增加训练时间。

    4. 使用分布式训练:通过将训练任务分发到多个机器上进行并行计算,可以有效地解决Memory error问题。但是需要注意的是,分布式训练需要额外的配置和管理成本。

    2024-01-06 11:59:05
    赞同 展开评论 打赏
  • 数据量没有限制,可以看下是哪个阶段报错。此回答整理自钉群“modelscope-funasr社区交流”

    2024-01-05 08:31:36
    赞同 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载