备案控制台

开发者社区 ModelScope模型即服务正文

请问modelscope-funasr 最多可以用多大的数据量进行训练呢？

lm训练多gpu大数据量时报错Memory error
环境：linux, 机器Mem大小显示为216G
使用代码：egs/aishell2/transformerLM/run.sh
报错：1个gpu可正常训练，4个gpu则会报Memory error，训练停止
请问modelscope-funasr 最多可以用多大的数据量进行训练呢？

展开

收起

嘟嘟嘟嘟嘟嘟 2024-01-05 07:58:28 192 版权

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
ModelScope-FunASR可以处理非常大的数据集，但是具体能够处理的数据量取决于多个因素，包括ModelScope-FunASR可以处理非常大的数据集，但是具体能够处理的数据量取决于多个因素，包括模型的大小、训练数据的质量和数量、硬件设备的性能等等。

对于您遇到的问题，Memory error通常是由于GPU内存不足导致的。在训练过程中，每个GPU都需要分配一定的内存来存储模型参数、输入数据和中间计算结果等。当使用多个GPU进行训练时，需要确保所有GPU的内存总量足够大以容纳整个模型和数据。

您可以尝试以下方法来解决Memory error问题：
1. 减小batch size：将batch size从默认值降低可以减少每个GPU所需的内存量。但是需要注意的是，减小batch size可能会影响模型的训练效果和收敛速度。
2. 使用更大的GPU：如果您的机器支持更大容量的GPU，可以考虑更换更大容量的GPU来增加可用内存。
3. 使用梯度累积：通过将多个小批次的梯度累积起来再进行更新，可以减少每个GPU所需的内存量。但是需要注意的是，梯度累积可能会增加训练时间。
4. 使用分布式训练：通过将训练任务分发到多个机器上进行并行计算，可以有效地解决Memory error问题。但是需要注意的是，分布式训练需要额外的配置和管理成本。
2024-01-06 11:59:05

赞同展开评论
番茄酱脑袋

数据量没有限制，可以看下是哪个阶段报错。此回答整理自钉群“modelscope-funasr社区交流”

2024-01-05 08:31:36

赞同展开评论

相关问答

modelscope训练完一直出现同一个错误怎么回事？

235

1

0

在modelscope-funasr中用的sensevoice，这种情况只能通过训练来提高准确率吗？

127

0

0

ModelScope 使用mossformer的训练代码出现如下报错，该如何解决啊？

171

1

0

通过这个ModelScope去添加一个数据集去训练一下不知道是否推荐？

133

1

0

ModelScope中，用qwen7b训练没有错，训练的时候报错了，怎么解决？

115

1

0

ModelScope的swift能训练llama3.1的大模型吗？

113

1

0

ModelScope训练报错如下，是什么原因？

87

1

0

为啥notebook 训练到一半就把modelscope的数据集文件产生的logo文件就删了？

101

1

0

如何重置或者用干净的训练ModelScope模型只训练自己的模型呢？

113

1

0

请教下ModelScope的语音唤醒模型训练的过程中报错，怎么解决？

191

0

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

相关文章

掌握CentOS进程信号发送与处理（Linux系统下kill命令与信号机制详解）

SaltStack自动化运维实战（CentOS SaltStack配置完整教程）

阿里云轻量应用服务器介绍及支持的应用镜像说明

Linux 麒麟系统安装 libgomp-7.3.0 rpm 包步骤

GPU vs NPU：算力江湖分家又合流，这事儿你真想清楚了吗？

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope中apikey在哪申请？

dataset的版本问题导致与modelscope不兼容

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

com/action/joingroup?code=v1是什么意思

创业项目：AI 拟人化中层解决方案

modelscope-funasr实时ASR的微调该怎么操作？

展开全部

Z-Image：冲击体验上限的下一代图像生成模型

Agent Skills技术协议与开源实现，让大模型拥有“即插即用”技能

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

共学 | 2025年，更加有效地搭建Agent

中文大模型体验

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Z-Image Turbo LoRA训练魔法：如何保持加速生图能力

Meta SAM3开源：让图像分割，听懂你的话

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

展开全部

还有其他疑问?