文档备案控制台

开发者社区云原生 Serverless 正文

函数计算为什么 oom 了？

CUDA out of memory. Tried to allocate 1.98 GiB. GPU ，规格方案是 16GB的。函数计算为什么 oom 了？

展开

收起

三分钟热度的鱼 2024-07-11 08:32:23 144 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

圆不溜秋的小猫猫

根据您提供的信息，您在函数计算（FC）服务中配置了一个16GB的GPU实例来执行图像模型任务，理论上该配置应该足以应对您提到的3GB的内存需求。但是仍然出现了CUDA out of memory错误，这表明实际运行过程中内存分配超出了预期。
这里有几个可能的原因和对应的解决方案：

内存碎片化：即使总可用GPU内存足够，如果内存分配不连续，也可能导致较大的连续内存块分配失败。您可以尝试优化模型结构或执行策略，减少大块连续内存的请求，比如使用较小的批次尺寸（batch size）进行处理。

隐式内存需求：模型在运行时的实际内存需求可能不仅仅来自于模型参数本身，还包括中间计算过程中的临时变量、缓存等。这些隐式的内存需求可能超出了直接估算的3GB。建议使用诸如NVIDIA的nvidia-smi工具或者TensorFlow/PyTorch等框架的内存分析工具来监测实际运行时的内存使用情况，以获得更精确的内存占用信息。

内存泄漏：在某些情况下，如果模型或代码中存在内存泄漏，随着时间的推移，即使初始分配的内存足够，也会逐渐耗尽所有可用内存。确保在模型训练或推理循环中释放不再使用的张量和变量。

实例规格配置问题：虽然您提到规格方案是16GB，但请确认在函数计算服务中实际为您的函数配置的GPU显存大小是否也是16GB。有时候，尽管实例总内存较大，但分配给函数的GPU显存可能并未达到最大值。您可以通过函数计算控制台或API检查并调整函数的资源配置。

显存分配策略：某些深度学习框架有显存分配策略的设置，比如PyTorch的torch.cuda.set_per_process_memory_fraction，可以限制框架使用显存的最大比例，防止过度分配。

综上所述，建议您首先详细分析模型运行时的实际内存使用情况，并根据分析结果调整模型参数、执行策略或内存分配策略，以解决内存不足的问题。同时，确保函数计算中函数的资源配置正确无误。此回答整理自钉群“阿里函数计算客户【已满，加2群：64970014484】”

2024-07-11 08:56:25

赞同 2 展开评论

问答分类：

Serverless 并行计算异构计算 GPU云服务器函数计算

问答标签：

函数计算oom

问答地址：

开发者社区 > 云原生 > Serverless > 问答

相关问答

Serverless应用引擎为什么OOM没有生成DUMP文件

139

1

0

Serverless应用引擎应用发生OOM事件如何排查

125

1

0

我们Serverless 应用引擎线上应用oom，设置了会保存内存快照，但这个快照文件没有?

147

0

0

函数计算FC的api 连续出图就oom，有好的解决方案么？已经是3090 24G显存了。

120

1

0

jvm在oom的时候可以配置自动dump堆信息，这个可能需要FC支持。不过看FC的内存使用还剩下6

773

1

0

FC的内存使用监控看上去没有OOM，但是日志报错OOM，这个时候FC的实例也销毁了，要怎么dump堆

800

1

0

FC在OOM后有dump堆信息吗？

420

1

0

有兄弟姐妹们用过函数计算FC里面的 nginx应用吗，这里面我直接放vue element这种bui

834

1

0

想问一下 serverless应用申请ssl证书，一直审核失败，是需要自己购买域名绑定吗？如果

1855

3

0

目前Serverless并不适用于所有类型的应用，需要使用者决策应用类型是否适用于Serverles

907

1

0

云原生

Serverless

快速交付实现商业价值。

我要提问

相关文章

阿里云AI Agent搭建不踩坑：全套餐（qwen-plus + 函数计算 + NAS）费用 + 教程

阿里云 AI Agent 全套餐指南：qwen-plus、函数计算 CU、NAS资源包价格及使用教程

日志不是垃圾，是金矿：聊聊基于日志的大规模用户行为建模如何撑起推荐系统

大模型太慢？别急着上 GPU 堆钱：Python + ONNX Runtime 优化推理性能实战指南

基于YOLO26的5类常见水果检测系统（中英文双版） | 附完整源码与效果演示

热门讨论

热门文章

默认情况下，从函数计算FC侧操作，创建的nas是性能型，能否手动创建容量型规格nas在FC中使用呢？

函数计算FC agent start之后调接口是404，怎么解决？

按照函数计算FC的comfyUI部署的，comfyUI界面上没有显示Manager 按钮，是为什么？

在终端怎么升级python？

函数计算中，测试函数返回unexpected end of JSON input，是我写入的不是吗？

函数计算中，为什么打不开部署的AI数字绘画的链接？

函数计算的OSS触发器可以只有文件前缀没有后缀吗？

域名解析到国外ip没问题吧？

函数计算FC为什么会出现"Unexpected end of JSON input"的报错？

问一下502是什么错误，我返回的明明是500，为啥函数计算帮我改掉了，后端就是自定义的py

展开全部

入门篇：函数计算的基本概念和通用场景概述

基于阿里云Serverless架构下函数计算的最新应用场景详解（一）

阿里云函数计算 - 事件驱动的serverless计算平台

15+文章详细讲述Serverless：开启函数计算时代！（含PDF下载）

Serverless Kubernetes 快速入门指南

Serverless助力AI计算：阿里云ACK Serverless/ECI发布GPU容器实例

WebIDE 使用指南

三分钟学会如何在函数计算中使用 puppeteer

Serverless 风暴来袭，前端工程师如何应对？

函数计算搭建 Serverless Web 应用（二）- 自定义域名

展开全部

还有其他疑问?