备案控制台登录注册

开发者社区人工智能文章正文

TensorFlow训练报错：ResourceExhaustedError: OOM when allocating tensor device:GPU:0 by allocator G

2023-05-13 286 发布于河北

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 如果在notebook中运行了很多代码，则会占用一定的内存，上面的代码顾名思义就是清楚掉之前运行的一些session，以释放空间。

使用TensorFlow训练某些较大模型时会发生内存溢出，如果已经安装了TensorFlow-GPU版本，训练时会优先调用GPU版本的TensorFlow，而一般电脑上显存比较小，很容易发生溢出，就会出现如下报错：

ResourceExhaustedError:  OOM when allocating tensor with shape[1024,728,1,1] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
   [[node model/block13_sepconv2/separable_conv2d (defined at <ipython-input-41-425b3e9b7078>:11) ]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.
 [Op:__inference_train_function_41706]
Function call stack:
train_function

解决方案：

1. CPU进行训练

尝试使用CPU进行训练，将model.fit()代码做如下修改：

with tf.device("/cpu:0"):
    history = model.fit(替换成自己的代码)

输出：

Epoch 1/50
43/86 [===========>.............] - ETA: 16:08 - loss: 0.4574 - 
accuracy: 0.8438

2. Jupyter notebook

tf.keras.backend.clear_session()

如果在notebook中运行了很多代码，则会占用一定的内存，上面的代码顾名思义就是清楚掉之前运行的一些session，以释放空间。

3. 修改batch_size

如果还是不行，则只能修改代码，将批次数batch_size改小一些，每次给模型喂入小批量的数据。

文章标签：

GPU云服务器

算法框架/工具

异构计算

TensorFlow

关键词：

训练GPU云服务器

TensorFlow训练

报错GPU云服务器

TensorFlow tensor

TensorFlow gpu

相关实践学习

部署Stable Diffusion玩转AI绘画（GPU云服务器）

本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作，开启AIGC盲盒。

AiCharm

+关注

目录

打赏

0

0

0

0

12

相关文章

Deephub

|

1月前

|

并行计算 PyTorch 算法框架/工具

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题，文章提出利用UCC和UCX等统一通信框架实现高效数据传输，并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战，如计算能力不平衡、内存容量差异及通信性能优化，文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性，但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开，供读者参考实践。

Deephub

96 3 3

融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践

蚝油菜花

|

1月前

|

机器学习/深度学习人工智能物联网

MiniMind：2小时训练出你的专属AI！开源轻量级语言模型，个人GPU轻松搞定

MiniMind 是一个开源的超小型语言模型项目，帮助开发者以极低成本从零开始训练自己的语言模型，最小版本仅需25.8M参数，适合在普通个人GPU上快速训练。

蚝油菜花

422 10 10

MiniMind：2小时训练出你的专属AI！开源轻量级语言模型，个人GPU轻松搞定

zzy的aly

|

6月前

|

并行计算 Shell TensorFlow

Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED

在使用TensorFlow-GPU训练MTCNN时，如果遇到“Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED”错误，通常是由于TensorFlow、CUDA和cuDNN版本不兼容或显存分配问题导致的，可以通过安装匹配的版本或在代码中设置动态显存分配来解决。

zzy的aly

117 1 1

Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED

蚝油菜花

|

1月前

|

人工智能负载均衡调度

COMET：字节跳动开源MoE训练加速神器，单层1.96倍性能提升，节省百万GPU小时

COMET是字节跳动推出的针对Mixture-of-Experts（MoE）模型的优化系统，通过细粒度的计算-通信重叠技术，显著提升分布式训练效率，支持多种并行策略和大规模集群部署。

蚝油菜花

112 9 9

宋晨明

|

6月前

|

数据采集 TensorFlow 算法框架/工具

【大作业-03】手把手教你用tensorflow2.3训练自己的分类数据集

本教程详细介绍了如何使用TensorFlow 2.3训练自定义图像分类数据集，涵盖数据集收集、整理、划分及模型训练与测试全过程。提供完整代码示例及图形界面应用开发指导，适合初学者快速上手。[教程链接](https://www.bilibili.com/video/BV1rX4y1A7N8/)，配套视频更易理解。

宋晨明

139 0 0

【大作业-03】手把手教你用tensorflow2.3训练自己的分类数据集

楠竹11

|

6月前

|

人工智能语音技术 UED

仅用4块GPU、不到3天训练出开源版GPT-4o，这是国内团队最新研究

【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构，实现与大型语言模型（LLMs）的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器，能够在不进行语音转录的情况下直接生成文本和语音响应，显著提升了用户体验。实验结果显示，LLaMA-Omni的响应延迟低至226ms，具有创新性和实用性。

楠竹11

284 1 1

郑小健

|

8月前

|

机器学习/深度学习并行计算 PyTorch

GPU 加速与 PyTorch：最大化硬件性能提升训练速度

【8月更文第29天】GPU（图形处理单元）因其并行计算能力而成为深度学习领域的重要组成部分。本文将介绍如何利用PyTorch来高效地利用GPU进行深度学习模型的训练，从而最大化训练速度。我们将讨论如何配置环境、选择合适的硬件、编写高效的代码以及利用高级特性来提高性能。

郑小健

1550 1 1

BetterBench

|

8月前

|

TensorFlow 算法框架/工具 Python

【Mac 系统】解决VSCode用Conda成功安装TensorFlow但程序报错显示红色波浪线Unable to import ‘tensorflow‘ pylint(import-error)

本文解决在Mac系统上使用VSCode时遇到的TensorFlow无法导入问题，原因是Python解析器未正确设置为Conda环境下的版本。通过在VSCode左下角选择正确的Python解析器，即可解决import TensorFlow时报错和显示红色波浪线的问题。

BetterBench

355 9 9

BetterBench

|

8月前

|

机器学习/深度学习 API 算法框架/工具

【Tensorflow+keras】Keras API两种训练GAN网络的方式

使用Keras API以两种不同方式训练条件生成对抗网络（CGAN）的示例代码：一种是使用train_on_batch方法，另一种是使用tf.GradientTape进行自定义训练循环。

BetterBench

87 5 6

BetterBench

|

8月前

|

TensorFlow 算法框架/工具 Python

【Tensorflow 2】解决'Tensor' object has no attribute 'numpy'

解决'Tensor' object has no attribute 'numpy'

BetterBench

181 3 3

热门文章

最新文章

英伟达新一代GPU架构（50系列显卡）PyTorch兼容性解决方案

斯坦福黑科技让笔记本GPU也能玩转AI视频生成！FramePack：压缩输入帧上下文长度！仅需6GB显存即可生成高清动画

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

谷歌DeepMind联手牛津推出Bolt3D：AI秒速3D建模革命！单GPU仅需6秒生成3D场景

谷歌开源量化模型 Gemma 3 QAT：显存需求直降75%，消费级GPU轻松跑大模型！

K8S 部署 Deepseek 要 3 天？别逗了！Ollama+GPU Operator 1 小时搞定

119K star！无需GPU轻松本地部署多款大模型，DeepSeek支持！这个开源神器绝了

8.6K star！完全免费+本地运行+无需GPU，这款AI搜索聚合神器绝了！

GPU实例使用--单实例上运行Linux桌面多开解决方案

通过阿里云容器服务深度学习解决方案上手Caffe+多GPU训练

构建NLP 开发问题之如何将模型导出为 ONNX、TensorRT 或 Tensorflow 格式以便部署

利用TensorFlow解决线性回归问题

分布式TensorFlow

在深度学习中，数据增强是一种常用的技术，用于通过增加训练数据的多样性来提高模型的泛化能力。`albumentations`是一个强大的Python库，用于图像增强，支持多种图像变换操作，并且可以与深度学习框架（如PyTorch、TensorFlow等）无缝集成。

Keras是一个高层神经网络API，由Python编写，并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验，能够用最少的代码实现想法，并且能够方便地在CPU和GPU上运行。

【Python】已解决ModuleNotFoundError: No module named ‘tensorflow‘

【服装识别系统】图像识别+Python+人工智能+深度学习+算法模型+TensorFlow

安装GPU版本的TensorFlow

分布式TensorFlow

PAI DLC与其他深度学习框架如TensorFlow或PyTorch的异同

相关课程

更多

云原生AI套件：一键训练大模型及部署GPU共享推理服务

深度学习框架TensorFlow入门

跟着指南学PyTorch

相关电子书

更多

深度学习+大数据 TensorFlow on Yarn

使用TensorFlow搭建智能开发系统自劢生成App UI代码

线性加速Tensorflow分布式计算

相关实验场景

更多

通过GPU云服务器训练GPT-2

通过GPU云服务器生成AIGC 3D模型

在云上部署ChatGLM2-6B大模型（GPU版）

部署Stable Diffusion玩转AI绘画（GPU云服务器）

下一篇

oss创建bucket

目录

目录

你好，我是AI助理

可以解答问题、推荐解决方案等