备案控制台

开发者社区 ModelScope模型即服务正文

部署通义72B遇到的问题

各位大佬帮看下这个怎么配置，在启动demo72B的提示显存不足，我的配置是两张A5000,总共48G的显存，下载的模型也是int4的
报错信息：torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 2.32 GiB. GPU 1 has a total capacty of 23.68 GiB of which 2.25 GiB is free. Including non-PyTorch memory, this process has 21.42 GiB memory in use. Of the allocated memory 21.13 GiB is allocated by PyTorch, and 98.39 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

展开

收起

r2lf7cgrddr6c 2024-01-10 10:04:04 585 版权

1 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
根据您的描述，您的显存不足导致无法启动demo72B。您可以尝试以下方法来解决这个问题：
1. 减小模型的批量大小（batch size）。这将减少每次迭代中所需的显存。在PyTorch中，您可以在训练循环中设置batch_size参数。例如：
```
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)
```
1. 使用梯度累积（gradient accumulation）。这意味着您将多个小批量（mini-batch）的梯度累加到一个更大的批次上，然后一次性更新模型参数。这可以有效地减少显存需求。例如：
```
accumulation_steps = 4
optimizer.zero_grad()
for i, (inputs, labels) in enumerate(train_loader):
    outputs = model(inputs)
    loss = criterion(outputs, labels)
    loss.backward()
    if (i + 1) % accumulation_steps == 0:
        optimizer.step()
        optimizer.zero_grad()
```
1. 检查是否有其他进程占用了大量显存。您可以使用nvidia-smi命令查看GPU内存使用情况。如果有其他进程占用了大量显存，您可以考虑关闭它们或者增加系统可用显存。
2. 如果以上方法都无法解决问题，您可以考虑使用具有更多显存的GPU，或者升级您的硬件配置。
2024-01-13 17:48:20

赞同展开评论

相关问答

this xml file does not appear to have any style in

49284

10

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

127975

28

0

请问下我访问接口不通什么原因 Provisional headers are shown

2256

0

0

购买阿里国外的云服务器是否可以访问谷歌？

81198

47

0

OSS的endpoint如何查看

36551

6

0

配置了安全组规则，端口还是无法访问

32516

25

0

手机弹出支付风险问题

6390

2

0

sql server的用户名和密码怎么查啊？

35916

21

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

59766

30

0

设置域名解析如何指向我的服务器url包括端口号

17720

2

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

相关文章

144_推理时延优化：Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟，优化矩阵运算的独特瓶颈

140_异步推理：队列管理框架 - 使用Celery处理高并发请求的独特设计

142_故障容错：冗余与回滚机制 - 配置多副本的独特健康检查

143_成本优化：Spot实例与预留实例云资源节省计算详解与最佳实践

VMware ESXi 9.0.1.0 发布 - 领先的裸机 Hypervisor

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope下载速度慢怎么解决？

普通轻薄本能跑哪些多模态大模型

下载完整的模型库后应该怎么微调

dataset的版本问题导致与modelscope不兼容

cpu部署报错 Torch not compiled with CUDA enabled

如何下载modelscope模型？

com/action/joingroup?code=v1是什么意思

ModelScope中，大佬们4卡跑lora时，遇到这样的错，怎么解决？

展开全部

中企投资印度新能源“有戏”吗？

B站开源IndexTTS2，用极致表现力颠覆听觉体验

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

通义DeepResearch全面开源！同步分享可落地的高阶Agent构建方法论

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

腾讯混元图像3.0正式开源发布！80B，首个工业级原生多模态生图模型

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

PDF解析迎来技术革新！阿里新产品实现复杂文档端到端结构化处理

134_边缘推理：TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

展开全部

还有其他疑问?