DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元

简介: 【8月更文挑战第25天】近期,Katie Everett等11位作者发布了一篇题为《Scaling Exponents Across Parameterizations and Optimizers》的论文,已提交至ICML。该研究探讨了从小型到大型模型的扩展过程中,如何通过精确调整算法和架构细节实现有效扩展。作者们通过广泛的实证研究,包括训练了数以万计的不同规模的模型,提出了一种新的参数化视角及Adam-atan2优化器版本。然而,这项研究的成本高达1290万美元,引发了关于资源分配与研究价值的争议。论文链接: https://arxiv.org/abs/2407.05872。

近期,一篇名为《Scaling Exponents Across Parameterizations and Optimizers》的论文引起了广泛关注。这篇论文由Katie Everett、Lechao Xiao、Mitchell Wortsman等11位作者共同完成,并已提交至ICML(国际机器学习大会)。然而,令人惊讶的是,这篇论文的背后隐藏着巨大的研究成本,据估计,其研究费用高达1290万美元。

这篇论文主要探讨了在模型从小型到大型宽度的扩展过程中,如何通过精确调整算法和架构细节,如参数化和优化器选择,来实现模型的稳健和有效扩展。作者们提出了一种新的参数化视角,并基于更弱的假设和更广泛的优化器集合,推导出了新的理论结果。

为了支持他们的研究,作者们进行了广泛的实证研究,包括使用三种优化器、四种参数化方法、多种学习率和模型大小的组合,训练了数以万计的模型。这些实验涵盖了从小型模型到拥有268亿参数的大型模型的各种规模。

然而,如此庞大的研究成本也引发了一些争议和质疑。一方面,有人认为这是对科学研究的过度投资,可能会导致资源的浪费。毕竟,1290万美元可以用于支持更多的研究项目或解决其他紧迫的科学问题。

另一方面,也有人对这篇论文的实际价值提出了质疑。他们认为,尽管作者们进行了广泛的实验和分析,但论文的结论可能并不具有普遍适用性。此外,由于研究成本过高,其他研究者可能无法复制或验证这些结果,从而限制了该研究的影响力和可靠性。

然而,尽管存在这些争议和质疑,我们也不能否认这篇论文所取得的成果和贡献。首先,作者们提出了一种新的参数化视角,并基于更弱的假设和更广泛的优化器集合,推导出了新的理论结果。这些结果为我们理解模型扩展过程中的关键问题提供了新的见解和思路。

其次,作者们通过广泛的实证研究,验证了他们的理论结果,并发现了一些有趣的现象和规律。例如,他们发现不同的参数化方法都可以实现超参数的转移,而不仅仅是最大更新参数化(muP)。此外,他们还提出了一种新颖的逐层学习率处方,用于标准参数化,并发现其性能优于muP。

最后,作者们还发现了Adam优化器中一个被忽视的方面,即epsilon参数必须正确缩放以避免梯度下溢。基于这一发现,他们提出了Adam-atan2,一种新型的数值稳定、尺度不变的Adam版本,消除了epsilon超参数。

论文地址:https://arxiv.org/abs/2407.05872

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
500篇论文!最全代码大模型综述来袭
11月14日,蚂蚁集团联合上海交通大学发布55页代码大模型综述,覆盖超过50个模型、30个下游任务、500篇参考文献,全方位总结大语言模型在代码相关应用中的最新进展与挑战。
1430 0
|
8月前
|
机器学习/深度学习 人工智能
斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
斯坦福大学研究发现,顶级学术会议评审内容中有一部分可能由大型语言模型如ChatGPT生成,揭示AI对学术领域的影响,引发学术诚信和评审质量关注。研究团队通过新框架“分布式GPT量化”更准确检测AI参与度,发现AI在评审紧迫、无引用及低互动场景中更常见,可能影响评审质量和多样性。尽管AI能提升效率,但也可能导致同质化和学术不端。该研究强调了在利用AI的同时保持学术评审质量的重要性。
60 3
斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
|
机器学习/深度学习 数据挖掘 PyTorch
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
148 0
|
机器学习/深度学习 存储 人工智能
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
168 0
|
机器学习/深度学习 人工智能 自然语言处理
稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023
稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023
411 0
|
机器学习/深度学习 自然语言处理 算法
「扩散模型」首篇综述!谷歌&北大最新研究
「扩散模型」首篇综述!谷歌&北大最新研究
583 0
|
机器学习/深度学习 存储 人工智能
西电焦李成教授一作:「深度神经网络FPGA」最新研究综述
西电焦李成教授一作:「深度神经网络FPGA」最新研究综述
260 0
|
机器学习/深度学习 数据挖掘 计算机视觉
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012
|
机器学习/深度学习 运维 算法
ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集
ICLR2021和CVPR2021双料大作,谷歌最新成果,融合单类分类与深度表示的自监督学习的异常检测算法,超越多个数据集基准。
456 0
ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集
|
机器学习/深度学习 人工智能 自然语言处理
AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展
2020 年 2 月 7 日至 12 日,AAAI 2020 将于美国纽约举办。今年 AAAI 共接受了 8800 篇提交论文,其中评审了 7737 篇,接收 1591 篇,接收率为 20.6%。为了向读者们介绍更多 AAAI2020 的优质论文,机器之心组织策划了 AAAI 2020 论文分享,邀请国内外著名大学、研究机构以及工业界的研究人员详细介绍他们发布在 AAAI 2020 的文章,欢迎大家持续关注。
307 0
AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展