近期,一篇名为《Scaling Exponents Across Parameterizations and Optimizers》的论文引起了广泛关注。这篇论文由Katie Everett、Lechao Xiao、Mitchell Wortsman等11位作者共同完成,并已提交至ICML(国际机器学习大会)。然而,令人惊讶的是,这篇论文的背后隐藏着巨大的研究成本,据估计,其研究费用高达1290万美元。
这篇论文主要探讨了在模型从小型到大型宽度的扩展过程中,如何通过精确调整算法和架构细节,如参数化和优化器选择,来实现模型的稳健和有效扩展。作者们提出了一种新的参数化视角,并基于更弱的假设和更广泛的优化器集合,推导出了新的理论结果。
为了支持他们的研究,作者们进行了广泛的实证研究,包括使用三种优化器、四种参数化方法、多种学习率和模型大小的组合,训练了数以万计的模型。这些实验涵盖了从小型模型到拥有268亿参数的大型模型的各种规模。
然而,如此庞大的研究成本也引发了一些争议和质疑。一方面,有人认为这是对科学研究的过度投资,可能会导致资源的浪费。毕竟,1290万美元可以用于支持更多的研究项目或解决其他紧迫的科学问题。
另一方面,也有人对这篇论文的实际价值提出了质疑。他们认为,尽管作者们进行了广泛的实验和分析,但论文的结论可能并不具有普遍适用性。此外,由于研究成本过高,其他研究者可能无法复制或验证这些结果,从而限制了该研究的影响力和可靠性。
然而,尽管存在这些争议和质疑,我们也不能否认这篇论文所取得的成果和贡献。首先,作者们提出了一种新的参数化视角,并基于更弱的假设和更广泛的优化器集合,推导出了新的理论结果。这些结果为我们理解模型扩展过程中的关键问题提供了新的见解和思路。
其次,作者们通过广泛的实证研究,验证了他们的理论结果,并发现了一些有趣的现象和规律。例如,他们发现不同的参数化方法都可以实现超参数的转移,而不仅仅是最大更新参数化(muP)。此外,他们还提出了一种新颖的逐层学习率处方,用于标准参数化,并发现其性能优于muP。
最后,作者们还发现了Adam优化器中一个被忽视的方面,即epsilon参数必须正确缩放以避免梯度下溢。基于这一发现,他们提出了Adam-atan2,一种新型的数值稳定、尺度不变的Adam版本,消除了epsilon超参数。