DeepMind研究成本大起底，一篇ICML论文烧掉1290万美元-阿里云开发者社区

DeepMind研究成本大起底，一篇ICML论文烧掉1290万美元

2024-08-25 208

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第25天】近期，Katie Everett等11位作者发布了一篇题为《Scaling Exponents Across Parameterizations and Optimizers》的论文，已提交至ICML。该研究探讨了从小型到大型模型的扩展过程中，如何通过精确调整算法和架构细节实现有效扩展。作者们通过广泛的实证研究，包括训练了数以万计的不同规模的模型，提出了一种新的参数化视角及Adam-atan2优化器版本。然而，这项研究的成本高达1290万美元，引发了关于资源分配与研究价值的争议。论文链接: https://arxiv.org/abs/2407.05872。

近期，一篇名为《Scaling Exponents Across Parameterizations and Optimizers》的论文引起了广泛关注。这篇论文由Katie Everett、Lechao Xiao、Mitchell Wortsman等11位作者共同完成，并已提交至ICML（国际机器学习大会）。然而，令人惊讶的是，这篇论文的背后隐藏着巨大的研究成本，据估计，其研究费用高达1290万美元。

这篇论文主要探讨了在模型从小型到大型宽度的扩展过程中，如何通过精确调整算法和架构细节，如参数化和优化器选择，来实现模型的稳健和有效扩展。作者们提出了一种新的参数化视角，并基于更弱的假设和更广泛的优化器集合，推导出了新的理论结果。

为了支持他们的研究，作者们进行了广泛的实证研究，包括使用三种优化器、四种参数化方法、多种学习率和模型大小的组合，训练了数以万计的模型。这些实验涵盖了从小型模型到拥有268亿参数的大型模型的各种规模。

然而，如此庞大的研究成本也引发了一些争议和质疑。一方面，有人认为这是对科学研究的过度投资，可能会导致资源的浪费。毕竟，1290万美元可以用于支持更多的研究项目或解决其他紧迫的科学问题。

另一方面，也有人对这篇论文的实际价值提出了质疑。他们认为，尽管作者们进行了广泛的实验和分析，但论文的结论可能并不具有普遍适用性。此外，由于研究成本过高，其他研究者可能无法复制或验证这些结果，从而限制了该研究的影响力和可靠性。

然而，尽管存在这些争议和质疑，我们也不能否认这篇论文所取得的成果和贡献。首先，作者们提出了一种新的参数化视角，并基于更弱的假设和更广泛的优化器集合，推导出了新的理论结果。这些结果为我们理解模型扩展过程中的关键问题提供了新的见解和思路。

其次，作者们通过广泛的实证研究，验证了他们的理论结果，并发现了一些有趣的现象和规律。例如，他们发现不同的参数化方法都可以实现超参数的转移，而不仅仅是最大更新参数化（muP）。此外，他们还提出了一种新颖的逐层学习率处方，用于标准参数化，并发现其性能优于muP。

最后，作者们还发现了Adam优化器中一个被忽视的方面，即epsilon参数必须正确缩放以避免梯度下溢。基于这一发现，他们提出了Adam-atan2，一种新型的数值稳定、尺度不变的Adam版本，消除了epsilon超参数。

论文地址：https://arxiv.org/abs/2407.05872

DeepMind研究成本大起底，一篇ICML论文烧掉1290万美元

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

DeepMind研究成本大起底，一篇ICML论文烧掉1290万美元

热门文章

最新文章

相关电子书