备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

训练框架似乎不支持多卡训练，多卡跑GPT-3中文2.7B训练会报错

GPT-3中文2.7B单卡跑训练CUDA显存会炸。因此需要多卡跑，但是切换到多卡后，似乎需要手动拆分模型，否则会报错。

以两张卡为例，直接跑命令“torchrun --nproc_per_node 2 finetune_dureader.py”会报“找不到mp_rank_01_model_states.pt”。

展开

收起

游客qofbdcxycebbe 2023-02-14 14:47:18 1098 版权

2 条回答

写回答

取消提交回答

turbo_zhang

我也有zh这个问题，交流一下15821444815

2023-03-08 10:01:44

赞同展开评论
wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com

训练框架似乎是支持多卡训练的，最好能拆分，但是拆分的话能做到自动化其实也很方便了。

2023-02-16 10:11:25

赞同 1 展开评论

相关问答

自然语言处理

训练一个GPT-3模型大概需要多少计算量和算力？

1905

3

0

nacos因为框架漏洞升级需要虽然可以自行改造修复但是gpt建议升级为没有漏洞的版本？

91

0

0

Modelscope在EAS部署了一个模型库的模型，是自己训练的GPT3，为什么现在报了这个错误？

208

3

0

在训练输入输出式的gpt3 的时候，推理出现异常

368

1

0

在使用gpt3 3.7B进行输入输出的训练问题

214

3

0

有基于GPT3.5训练自己的对话大模型的神龙AI技术方案吗？

164

2

0

阿里云的AIGC训练营试用可以做个人专属gpt的训练嘛?

86

0

0

阿里云ACR的试用可以做个人专属gpt的训练嘛?

97

1

0

您好，请教下ModelScope训练nlp_gpt3_text-generation_1.3B模型增

248

0

0

damo/nlp_gpt3_text-generation_2.7B，运行示例代码报错

506

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

收录在圈子:

自然语言处理

168

+ 订阅

相关文章

《3D端游开放世界动态天气系统与场景交互优化实践日志》

阿里云服务器多少钱一年？亲自整理ECS、轻量和GPU服务器租赁价格表

大模型推理优化：推测解码技术详解

阿里云超便宜云服务器优惠介绍：38元、99元、199元配置推荐及选购经验

阿里云安全携手月之暗面共筑AI基础设施“免疫系统”

热门讨论

热门文章

modelscope-funasr 热词如何设置？

modelscope-funasr支持粤语么？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

modelscope-funasr导出模型后onnx使用有问题，怎么解决？

modelscope-funasr这是服务端关闭了连接吗？

modelscope-funasr模型可以国产化吗？可以部署在昇腾NPU上吗？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

modelscope-funasr实时设别，mode:2pass 还是online，2个有啥不一样？

modelscope-funasr的python websocket怎么实现多用户并发啊？

modelscope-funasr模型选择whisper large v3，不出时间戳是正常的吗？

展开全部

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Qlib：华尔街颤抖！微软开源金融AI量化投资神器，助力智能投研

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

让AI读懂K线图！ChatTS-14B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型，创建个性化 AI 助手

自然语言生成代码一键搞定！Codex CLI：OpenAI开源终端AI编程助手，代码重构+测试全自动

SPO：如何优化提示词？大模型最懂如何优化自己！开源自监督提示词优化工具，让AI自主优化提示词

展开全部

还有其他疑问?