DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元

简介: 【8月更文挑战第25天】近期,Katie Everett等11位作者发布了一篇题为《Scaling Exponents Across Parameterizations and Optimizers》的论文,已提交至ICML。该研究探讨了从小型到大型模型的扩展过程中,如何通过精确调整算法和架构细节实现有效扩展。作者们通过广泛的实证研究,包括训练了数以万计的不同规模的模型,提出了一种新的参数化视角及Adam-atan2优化器版本。然而,这项研究的成本高达1290万美元,引发了关于资源分配与研究价值的争议。论文链接: https://arxiv.org/abs/2407.05872。

近期,一篇名为《Scaling Exponents Across Parameterizations and Optimizers》的论文引起了广泛关注。这篇论文由Katie Everett、Lechao Xiao、Mitchell Wortsman等11位作者共同完成,并已提交至ICML(国际机器学习大会)。然而,令人惊讶的是,这篇论文的背后隐藏着巨大的研究成本,据估计,其研究费用高达1290万美元。

这篇论文主要探讨了在模型从小型到大型宽度的扩展过程中,如何通过精确调整算法和架构细节,如参数化和优化器选择,来实现模型的稳健和有效扩展。作者们提出了一种新的参数化视角,并基于更弱的假设和更广泛的优化器集合,推导出了新的理论结果。

为了支持他们的研究,作者们进行了广泛的实证研究,包括使用三种优化器、四种参数化方法、多种学习率和模型大小的组合,训练了数以万计的模型。这些实验涵盖了从小型模型到拥有268亿参数的大型模型的各种规模。

然而,如此庞大的研究成本也引发了一些争议和质疑。一方面,有人认为这是对科学研究的过度投资,可能会导致资源的浪费。毕竟,1290万美元可以用于支持更多的研究项目或解决其他紧迫的科学问题。

另一方面,也有人对这篇论文的实际价值提出了质疑。他们认为,尽管作者们进行了广泛的实验和分析,但论文的结论可能并不具有普遍适用性。此外,由于研究成本过高,其他研究者可能无法复制或验证这些结果,从而限制了该研究的影响力和可靠性。

然而,尽管存在这些争议和质疑,我们也不能否认这篇论文所取得的成果和贡献。首先,作者们提出了一种新的参数化视角,并基于更弱的假设和更广泛的优化器集合,推导出了新的理论结果。这些结果为我们理解模型扩展过程中的关键问题提供了新的见解和思路。

其次,作者们通过广泛的实证研究,验证了他们的理论结果,并发现了一些有趣的现象和规律。例如,他们发现不同的参数化方法都可以实现超参数的转移,而不仅仅是最大更新参数化(muP)。此外,他们还提出了一种新颖的逐层学习率处方,用于标准参数化,并发现其性能优于muP。

最后,作者们还发现了Adam优化器中一个被忽视的方面,即epsilon参数必须正确缩放以避免梯度下溢。基于这一发现,他们提出了Adam-atan2,一种新型的数值稳定、尺度不变的Adam版本,消除了epsilon超参数。

论文地址:https://arxiv.org/abs/2407.05872

目录
相关文章
|
机器学习/深度学习 算法 TensorFlow
「隐语小课」深度学习下的DP-SGD
「隐语小课」深度学习下的DP-SGD
1207 0
|
机器学习/深度学习 存储 PyTorch
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
【AMP实操】解放你的GPU运行内存!在pytorch中使用自动混合精度训练
863 0
|
8月前
|
机器学习/深度学习 人工智能 JSON
知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析
大型语言模型(LLM)的发展迅速,从简单对话系统进化到能执行复杂任务的先进模型。然而,这些模型的规模和计算需求呈指数级增长,给学术界和工业界带来了挑战。为解决这一问题,知识蒸馏技术应运而生,旨在将大型模型的知识转移给更小、更易管理的学生模型。Google Research 提出的“Distilling Step-by-Step”方法不仅减小了模型规模,还通过提取推理过程使学生模型在某些任务上超越教师模型。该方法通过多任务学习框架,训练学生模型同时预测标签和生成推理过程,从而实现更高效、更智能的小型化模型。这为资源有限的研究者和开发者提供了新的解决方案,推动了AI技术的普及与应用。
360 19
知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析
|
8月前
|
机器学习/深度学习 人工智能 缓存
云上玩转DeepSeek系列之五:实测优化16%, 体验FlashMLA加速DeepSeek-V2-Lite推理
DeepSeek-AI 开源的 FlashMLA 是一个优化多层注意力机制的解码内核,显著提升大语言模型的长序列处理和推理效率。本文介绍了如何在 PAI 平台上安装并使用 FlashMLA 部署 DeepSeek-V2-Lite-Chat 模型。通过优化后的 FlashMLA,实现了约 16% 的性能提升。
|
11月前
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
806 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
10月前
|
缓存 Java 数据库连接
深入探讨:Spring与MyBatis中的连接池与缓存机制
Spring 与 MyBatis 提供了强大的连接池和缓存机制,通过合理配置和使用这些机制,可以显著提升应用的性能和可扩展性。连接池通过复用数据库连接减少了连接创建和销毁的开销,而 MyBatis 的一级缓存和二级缓存则通过缓存查询结果减少了数据库访问次数。在实际应用中,结合具体的业务需求和系统架构,优化连接池和缓存的配置,是提升系统性能的重要手段。
368 4
|
12月前
|
机器学习/深度学习 算法 数据可视化
机器学习的核心功能:分类、回归、聚类与降维
机器学习领域的基本功能类型通常按照学习模式、预测目标和算法适用性来分类。这些类型包括监督学习、无监督学习、半监督学习和强化学习。
579 0
|
开发框架 自然语言处理 小程序
多端/跨端/融合的移动端/小程序之Flutter
Flutter作为一种跨平台移动应用开发框架,以其出色的用户体验和丰富的功能,深受广大开发者的喜爱。
430 1
|
机器学习/深度学习 搜索推荐 Python
L2范数(L2 norm)
L2范数(L2 norm),也称为欧几里德范数(Euclidean norm)或2-范数,是向量元素的平方和的平方根。它在数学和机器学习中经常被用作一种正则化项、距离度量或误差度量。
10179 76
|
Java Spring
springboot自定义banner
springboot自定义banner
springboot自定义banner