文档备案控制台

开发者社区云原生 Serverless 正文

函数计算为什么 oom 了？

CUDA out of memory. Tried to allocate 1.98 GiB. GPU ，规格方案是 16GB的。函数计算为什么 oom 了？

展开

收起

三分钟热度的鱼 2024-07-11 08:32:23 174 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

圆不溜秋的小猫猫

根据您提供的信息，您在函数计算（FC）服务中配置了一个16GB的GPU实例来执行图像模型任务，理论上该配置应该足以应对您提到的3GB的内存需求。但是仍然出现了CUDA out of memory错误，这表明实际运行过程中内存分配超出了预期。
这里有几个可能的原因和对应的解决方案：

内存碎片化：即使总可用GPU内存足够，如果内存分配不连续，也可能导致较大的连续内存块分配失败。您可以尝试优化模型结构或执行策略，减少大块连续内存的请求，比如使用较小的批次尺寸（batch size）进行处理。

隐式内存需求：模型在运行时的实际内存需求可能不仅仅来自于模型参数本身，还包括中间计算过程中的临时变量、缓存等。这些隐式的内存需求可能超出了直接估算的3GB。建议使用诸如NVIDIA的nvidia-smi工具或者TensorFlow/PyTorch等框架的内存分析工具来监测实际运行时的内存使用情况，以获得更精确的内存占用信息。

内存泄漏：在某些情况下，如果模型或代码中存在内存泄漏，随着时间的推移，即使初始分配的内存足够，也会逐渐耗尽所有可用内存。确保在模型训练或推理循环中释放不再使用的张量和变量。

实例规格配置问题：虽然您提到规格方案是16GB，但请确认在函数计算服务中实际为您的函数配置的GPU显存大小是否也是16GB。有时候，尽管实例总内存较大，但分配给函数的GPU显存可能并未达到最大值。您可以通过函数计算控制台或API检查并调整函数的资源配置。

显存分配策略：某些深度学习框架有显存分配策略的设置，比如PyTorch的torch.cuda.set_per_process_memory_fraction，可以限制框架使用显存的最大比例，防止过度分配。

综上所述，建议您首先详细分析模型运行时的实际内存使用情况，并根据分析结果调整模型参数、执行策略或内存分配策略，以解决内存不足的问题。同时，确保函数计算中函数的资源配置正确无误。此回答整理自钉群“阿里函数计算客户【已满，加2群：64970014484】”

2024-07-11 08:56:25

赞同 2 展开评论

问答分类：

Serverless 并行计算异构计算 GPU云服务器函数计算

问答标签：

函数计算oom

问答地址：

开发者社区 > 云原生 > Serverless > 问答

相关问答

Serverless应用引擎为什么OOM没有生成DUMP文件

167

1

0

Serverless应用引擎应用发生OOM事件如何排查

152

1

0

我们Serverless 应用引擎线上应用oom，设置了会保存内存快照，但这个快照文件没有?

181

0

0

函数计算FC的api 连续出图就oom，有好的解决方案么？已经是3090 24G显存了。

143

1

0

jvm在oom的时候可以配置自动dump堆信息，这个可能需要FC支持。不过看FC的内存使用还剩下6

802

1

0

FC的内存使用监控看上去没有OOM，但是日志报错OOM，这个时候FC的实例也销毁了，要怎么dump堆

842

1

0

FC在OOM后有dump堆信息吗？

438

1

0

有兄弟姐妹们用过函数计算FC里面的 nginx应用吗，这里面我直接放vue element这种bui

864

1

0

想问一下 serverless应用申请ssl证书，一直审核失败，是需要自己购买域名绑定吗？如果

1925

3

0

目前Serverless并不适用于所有类型的应用，需要使用者决策应用类型是否适用于Serverles

967

1

0

云原生

Serverless

快速交付实现商业价值。

我要提问

相关文章

阿里云服务器多少钱一年？轻量38元、ECS服务器99元、GPU服务器L20/A10/T4/V100费用清单

零门槛部署 Windows 系统本地及阿里云上 AI 助手：Hermes Agent/OpenClaw 保姆级教程

阿里云AIGC活动：一键轻松打造你的专属AI应用，云资源优惠等你拿！

边缘计算时代，为什么你的应用需要阿里云 ESA？

热门讨论

热门文章

默认情况下，从函数计算FC侧操作，创建的nas是性能型，能否手动创建容量型规格nas在FC中使用呢？

阿里函数计算中python打包第三方库是什么？

按照函数计算FC的comfyUI部署的，comfyUI界面上没有显示Manager 按钮，是为什么？

域名解析到国外ip没问题吧？

一步搞定创意建站，Bolt.diy提供了哪些优势？

函数计算fc的sd的图库浏览器真的装不上去，不显示，怎么回事？

函数计算FC有这个中文的API文档呢？

函数计算FC sd没有图库浏览器，生成的图片存在文件夹里不方便查找怎么办？

函数计算的OSS触发器可以只有文件前缀没有后缀吗？

在终端怎么升级python？

展开全部

开发函数计算的正确姿势 —— 移植 next.js 服务端渲染框架

快速搭建基于 Serverless 的 .NET Core 数据库应用

首次揭秘：阿里巴巴中间件在 Serverless 技术领域的探索

10分钟-使用阿里云函数计算构建你的OCR智能识别云端小程序

玩转阿里云函数计算(一)----Java Http 触发器极速迁移传统 Spring 应用

阿里云宣布推出Serverless Kubernetes服务 30秒即可完成应用部署

入门篇：函数计算的基本概念和通用场景概述

玩转阿里云Serverless Kubernetes新功能

浅析基于 Serverless 的前后端一体化框架

快速搭建 Serverless 人脸识别离线服务

展开全部

还有其他疑问?