DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元

简介: 【8月更文挑战第25天】近期,Katie Everett等11位作者发布了一篇题为《Scaling Exponents Across Parameterizations and Optimizers》的论文,已提交至ICML。该研究探讨了从小型到大型模型的扩展过程中,如何通过精确调整算法和架构细节实现有效扩展。作者们通过广泛的实证研究,包括训练了数以万计的不同规模的模型,提出了一种新的参数化视角及Adam-atan2优化器版本。然而,这项研究的成本高达1290万美元,引发了关于资源分配与研究价值的争议。论文链接: https://arxiv.org/abs/2407.05872。

近期,一篇名为《Scaling Exponents Across Parameterizations and Optimizers》的论文引起了广泛关注。这篇论文由Katie Everett、Lechao Xiao、Mitchell Wortsman等11位作者共同完成,并已提交至ICML(国际机器学习大会)。然而,令人惊讶的是,这篇论文的背后隐藏着巨大的研究成本,据估计,其研究费用高达1290万美元。

这篇论文主要探讨了在模型从小型到大型宽度的扩展过程中,如何通过精确调整算法和架构细节,如参数化和优化器选择,来实现模型的稳健和有效扩展。作者们提出了一种新的参数化视角,并基于更弱的假设和更广泛的优化器集合,推导出了新的理论结果。

为了支持他们的研究,作者们进行了广泛的实证研究,包括使用三种优化器、四种参数化方法、多种学习率和模型大小的组合,训练了数以万计的模型。这些实验涵盖了从小型模型到拥有268亿参数的大型模型的各种规模。

然而,如此庞大的研究成本也引发了一些争议和质疑。一方面,有人认为这是对科学研究的过度投资,可能会导致资源的浪费。毕竟,1290万美元可以用于支持更多的研究项目或解决其他紧迫的科学问题。

另一方面,也有人对这篇论文的实际价值提出了质疑。他们认为,尽管作者们进行了广泛的实验和分析,但论文的结论可能并不具有普遍适用性。此外,由于研究成本过高,其他研究者可能无法复制或验证这些结果,从而限制了该研究的影响力和可靠性。

然而,尽管存在这些争议和质疑,我们也不能否认这篇论文所取得的成果和贡献。首先,作者们提出了一种新的参数化视角,并基于更弱的假设和更广泛的优化器集合,推导出了新的理论结果。这些结果为我们理解模型扩展过程中的关键问题提供了新的见解和思路。

其次,作者们通过广泛的实证研究,验证了他们的理论结果,并发现了一些有趣的现象和规律。例如,他们发现不同的参数化方法都可以实现超参数的转移,而不仅仅是最大更新参数化(muP)。此外,他们还提出了一种新颖的逐层学习率处方,用于标准参数化,并发现其性能优于muP。

最后,作者们还发现了Adam优化器中一个被忽视的方面,即epsilon参数必须正确缩放以避免梯度下溢。基于这一发现,他们提出了Adam-atan2,一种新型的数值稳定、尺度不变的Adam版本,消除了epsilon超参数。

论文地址:https://arxiv.org/abs/2407.05872

目录
相关文章
|
1天前
|
自然语言处理
从头设计抗体,腾讯、北大团队预训练大语言模型登Nature子刊
【9月更文挑战第12天】近年来,抗体药物在生物医药领域展现出巨大潜力,但其高昂的研发成本和漫长周期成为瓶颈。为此,腾讯与北京大学合作开发了PALM-H3,这是一种基于预训练大语言模型的创新抗体设计方法。PALM-H3将抗体序列视为语言,利用Roformer模型学习其生成规律,实现从头设计高亲和力抗体,不依赖自然抗体,大幅提高研发效率和灵活性。此外,该方法还可广泛应用于疫苗设计和蛋白质工程等领域,加速新药上市。然而,确保抗体体内稳定性和安全性仍是挑战。论文详见:https://www.nature.com/articles/s41467-024-50903-y
9 1
|
11月前
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
人工智能 搜索推荐 算法
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
264 0
|
机器学习/深度学习 存储 人工智能
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
121 0
|
机器学习/深度学习 自然语言处理 算法
「扩散模型」首篇综述!谷歌&北大最新研究
「扩散模型」首篇综述!谷歌&北大最新研究
525 0
|
机器学习/深度学习 运维 算法
ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集
ICLR2021和CVPR2021双料大作,谷歌最新成果,融合单类分类与深度表示的自监督学习的异常检测算法,超越多个数据集基准。
422 0
ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集
|
机器学习/深度学习 人工智能 自然语言处理
华人博士一作:自动生成摘要超越BERT!帝国理工&谷歌提出新模型Pegasus
谷歌大脑和伦敦帝国理工学院的研究团队在自动生成文本摘要方面获得新的突破,他们构建了一个名为PEGASUS的系统,利用谷歌的Transformer架构,并结合了针对文本摘要生成定制的预训练目标,在12个摘要任务中均取得了最先进的结果。
600 0
华人博士一作:自动生成摘要超越BERT!帝国理工&谷歌提出新模型Pegasus
|
算法 机器学习/深度学习 人工智能
当AI学会回忆:Deepmind提出长期信度分配新算法,登上Nature子刊
在进行目标导向的决策时,人类经常通过回忆过去的经验进行决策。这种回忆不仅是讲故事,还改变了我们未来的行动,并赋予我们跨时间地将行动和后果联系起来的重要计算能力。
1648 0
当AI学会回忆:Deepmind提出长期信度分配新算法,登上Nature子刊
|
机器学习/深度学习 人工智能 算法
百度视觉团队斩获 ECCV Google AI 目标检测竞赛冠军,获奖方案全解读 | ECCV 2018
从整体方案框架来看,可分为 Fast R-CNN 和 Faster R-CNN 两种不同的训练模式。
606 0
|
机器学习/深度学习
ICML2018论文公布!一文了解机器学习最新热议论文和研究热点
ICML 2018上周公布了会议接受论文,各家组织机构和研究大牛们在Twitter上纷纷报喜,放出接受论文,恭喜!有Google Brain、DeepMind、Facebook、微软和各大高校等。我们整理了Twitter上的关注度比较热的一些论文,供大家了解,最新关于机器学习的一些热门研究方向!
3169 0