Adam有了mini版：内存占用少一半，吞吐量提升50%-阿里云开发者社区

Adam有了mini版：内存占用少一半，吞吐量提升50%

2024-07-19 75

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第18天】研究人员推出Adam-mini，针对AdamW的轻量化版本，旨在降低内存占用并提升训练大型模型的效率。通过参数分块和共享学习率，Adam-mini在70亿参数模型上实现50%内存节省，同时提高训练吞吐量50%，加速训练过程。然而，仍需考虑计算开销、通信成本及适用性问题。论文链接：[arxiv.org/pdf/2406.16793](https://arxiv.org/pdf/2406.16793)

最近，一篇名为"Adam-mini: Use Fewer Learning Rates To Gain More"的论文在人工智能领域引起了关注。这篇论文提出了一种名为Adam-mini的新型优化器，它通过减少学习率的数量来提高性能，从而在内存占用和吞吐量方面取得了显著的改进。

Adam-mini是一种基于AdamW优化器的改进版本，而AdamW本身已经是用于训练大型语言模型（LLMs）的常用优化器。然而，尽管AdamW在性能方面表现出色，但它的内存占用和计算开销也相对较高。

为了解决这个问题，研究人员提出了Adam-mini，它通过减少学习率的数量来提高性能。具体来说，Adam-mini通过将参数划分为块，并为每个块分配一个单独的学习率，而不是为每个参数分配一个单独的学习率。这种策略基于Hessian结构，即模型参数的二阶导数的矩阵。

通过这种方式，Adam-mini能够显著减少内存占用。例如，在训练一个70亿参数的模型时，Adam-mini只需要大约50%的内存，而AdamW则需要大约100%的内存。这对于在有限硬件资源上训练大型模型来说是一个巨大的优势。

除了内存占用的减少，Adam-mini还能够提高吞吐量。吞吐量是指系统在单位时间内处理的数据量，对于训练大型模型来说，吞吐量的提高意味着训练时间的减少。

研究人员发现，当使用Adam-mini训练一个70亿参数的模型时，吞吐量可以提高约50%。这意味着使用Adam-mini可以节省一半的训练时间，这对于需要快速迭代和实验的研究人员来说是一个巨大的优势。

然而，尽管Adam-mini在内存占用和吞吐量方面取得了显著的改进，但也有一些潜在的局限性和挑战需要考虑。

首先，尽管Adam-mini能够减少内存占用，但仍然需要跟踪和更新大量的优化器状态，包括一阶和二阶动量。这可能会增加计算开销，并可能抵消一些内存占用的减少。

其次，尽管Adam-mini能够提高吞吐量，但这种改进可能受到其他因素的限制，如通信开销和硬件限制。在实践中，这些因素可能会限制Adam-mini的吞吐量改进的实际效果。

最后，尽管Adam-mini在各种任务上都表现出了良好的性能，但仍然需要进一步的研究来确定其在更广泛范围内的适用性。此外，还需要更多的研究来理解Adam-mini的底层机制，以及如何进一步改进其性能。

论文地址：https://arxiv.org/pdf/2406.16793

Adam有了mini版：内存占用少一半，吞吐量提升50%

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Adam有了mini版：内存占用少一半，吞吐量提升50%

热门文章

最新文章

相关电子书