破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍-阿里云开发者社区

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

2024-07-20 123 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第19天】DeepMind的JEST算法革新AI训练，提升效率13倍，节能10倍。通过联合数据批次选择，预训练指导及多分辨率训练，优化资源利用，降低能耗。实验显示性能提升，达到SOTA水平，但实施需大量资源，依赖优质参考模型。[论文链接](https://arxiv.org/pdf/2406.17711)

最近，DeepMind 提出了一种名为 JEST（Joint Example Selection for Training）的新算法，该算法在多模态学习领域取得了重大突破。JEST 算法通过联合选择数据批次，显著提高了模型的训练效率和性能，同时大幅降低了能耗。

JEST 算法的核心思想是，在大规模预训练过程中，数据的联合选择比独立选择更有效。多模态对比目标揭示了数据之间的依赖性，从而为衡量批次的联合可学习性提供了自然的标准。基于此，JEST 算法提出了一种简单且可处理的算法，用于选择这样的批次，从而显著加速了训练过程。

具体来说，JEST 算法通过以下方式提高了训练效率：

联合选择数据批次：JEST 算法不仅仅考虑单个数据点的质量，而是将数据批次作为一个整体来考虑。它通过选择具有高联合可学习性的批次，即那些在模型中产生高损失的批次，来提高训练效率。
使用预训练参考模型：JEST 算法利用预训练的参考模型来指导数据选择过程。通过将数据选择过程引导到较小、精心策划的数据集的分布上，JEST 算法能够实现强大的数据质量引导。
多分辨率训练：为了提高训练效率，JEST 算法采用了多分辨率训练的方法。通过在不同的分辨率下训练模型，JEST 算法能够有效地利用计算资源，并提高训练速度。
高效的数据评分：JEST 算法通过使用在线模型近似和低分辨率评分来减少数据评分的计算成本。这进一步提高了训练效率，并减少了总的能耗。

JEST 算法在实验中取得了令人印象深刻的结果。与基线模型相比，JEST 算法在训练效率上提高了13倍，在能耗上降低了10倍。此外，JEST 算法还显著提高了模型的性能，在多个下游任务上取得了新的 state-of-the-art 结果。

然而，JEST 算法也存在一些潜在的局限性。首先，JEST 算法的实现可能需要大量的计算资源和存储空间，这可能会限制其在资源受限的环境中的应用。其次，JEST 算法的性能可能受到预训练参考模型的质量和多样性的影响，因此选择合适的参考模型至关重要。

论文地址：https://arxiv.org/pdf/2406.17711

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

热门文章

最新文章

相关课程

相关电子书

相关实验场景