OpenAI推新程序包:GPU适应十倍大模型仅需增加20%训练时间

简介:
本文来自AI新媒体量子位(QbitAI)

GPU内存太小可能是神经网络训练过程中最大的拦路虎。

不怕,用这个OpenAI推出的gradient-checkpointing程序包,对于前馈模型来说,仅仅需要增加20%的计算时间,这个程序包,GPU就能适应十倍大的模型。

还有这种操作?

训练神经网络对内存的要求随着网络的深度和batch-size呈线性增长。在内存有限的情况下,如果想训练深层模型,并且增加batch-size,很多研究人员会采用KFAC这样的二阶方法。与小批量的SGD相比,这种方法发需要学习较少的样例。

重点来了。昨天,OpenAI的研究科学家Tim Salimans和前Google Brain工程师的数据科学家Yaroslav Bulatov两人发布了一个python/TensorFlow包,名为gradient-checkpointing。

这个程序包使用了“用亚线性的存储成本训练神经网络”的技术,为简单的前馈网络提供了等价的内存存储,同时能为一般的神经网络节省内存,比如多层架构。

将这个程序包应用到TensorFlow官方CIFAR10 ResNet示例中。在batch size=1280的情况下,将内存和执行时间情况如下图所示。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

常规反向传播为线性扩展,但优化后的方法以深度的平方根方式扩展。当我们在更深层次的网络上尝试时,差异就更明显了。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

用标准方法,运行这个迭代需要60GB的内存,但新方法只需6GB的RAM。

再来看看计算时间。在实验中,在GTX1080上的运行时间增加了20%,在V100 GPU上时间增加了30%。

如果想了解这个程序包是如何节约内存的,可以移步GitHub一探究竟:

https://github.com/openai/gradient-checkpointing

本文作者:安妮
原文发布时间:2018-01-16
相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
5天前
|
JSON 自然语言处理 API
|
3天前
|
人工智能 数据处理
|
5天前
|
机器学习/深度学习 人工智能 算法
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
20 0
|
5天前
|
编解码 人工智能
OpenAI官方: Sora不止是模型,更是世界模拟器!
OpenAI官方: Sora不止是模型,更是世界模拟器!
8 0
|
5天前
|
人工智能 流计算
【AI大模型应用开发】【LangChain系列】9. 实用技巧:大模型的流式输出在 OpenAI 和 LangChain 中的使用
【AI大模型应用开发】【LangChain系列】9. 实用技巧:大模型的流式输出在 OpenAI 和 LangChain 中的使用
70 0
|
5天前
|
人工智能 API Python
【AI大模型应用开发】1.1 Prompt Engineering(提示词工程)- 用OpenAI API实战,优化方法论总结
【AI大模型应用开发】1.1 Prompt Engineering(提示词工程)- 用OpenAI API实战,优化方法论总结
28 0
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
2024 年最强?!深度剖析 OpenAI 最新 Sora 王炸模型!
2024 年最强?!深度剖析 OpenAI 最新 Sora 王炸模型!
17 1
|
5天前
|
机器学习/深度学习 并行计算 PyTorch
【多GPU炼丹-绝对有用】PyTorch多GPU并行训练:深度解析与实战代码指南
本文介绍了PyTorch中利用多GPU进行深度学习的三种策略:数据并行、模型并行和两者结合。通过`DataParallel`实现数据拆分、模型不拆分,将数据批次在不同GPU上处理;数据不拆分、模型拆分则将模型组件分配到不同GPU,适用于复杂模型;数据和模型都拆分,适合大型模型,使用`DistributedDataParallel`结合`torch.distributed`进行分布式训练。代码示例展示了如何在实践中应用这些策略。
149 2
【多GPU炼丹-绝对有用】PyTorch多GPU并行训练:深度解析与实战代码指南
|
5天前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
37 0
|
5天前
|
人工智能 算法 UED
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
【2月更文挑战第26天】OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
33 7
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI