破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍

简介: 【7月更文挑战第19天】DeepMind的JEST算法革新AI训练,提升效率13倍,节能10倍。通过联合数据批次选择,预训练指导及多分辨率训练,优化资源利用,降低能耗。实验显示性能提升,达到SOTA水平,但实施需大量资源,依赖优质参考模型。[论文链接](https://arxiv.org/pdf/2406.17711)

最近,DeepMind 提出了一种名为 JEST(Joint Example Selection for Training)的新算法,该算法在多模态学习领域取得了重大突破。JEST 算法通过联合选择数据批次,显著提高了模型的训练效率和性能,同时大幅降低了能耗。

JEST 算法的核心思想是,在大规模预训练过程中,数据的联合选择比独立选择更有效。多模态对比目标揭示了数据之间的依赖性,从而为衡量批次的联合可学习性提供了自然的标准。基于此,JEST 算法提出了一种简单且可处理的算法,用于选择这样的批次,从而显著加速了训练过程。

具体来说,JEST 算法通过以下方式提高了训练效率:

  1. 联合选择数据批次:JEST 算法不仅仅考虑单个数据点的质量,而是将数据批次作为一个整体来考虑。它通过选择具有高联合可学习性的批次,即那些在模型中产生高损失的批次,来提高训练效率。

  2. 使用预训练参考模型:JEST 算法利用预训练的参考模型来指导数据选择过程。通过将数据选择过程引导到较小、精心策划的数据集的分布上,JEST 算法能够实现强大的数据质量引导。

  3. 多分辨率训练:为了提高训练效率,JEST 算法采用了多分辨率训练的方法。通过在不同的分辨率下训练模型,JEST 算法能够有效地利用计算资源,并提高训练速度。

  4. 高效的数据评分:JEST 算法通过使用在线模型近似和低分辨率评分来减少数据评分的计算成本。这进一步提高了训练效率,并减少了总的能耗。

JEST 算法在实验中取得了令人印象深刻的结果。与基线模型相比,JEST 算法在训练效率上提高了13倍,在能耗上降低了10倍。此外,JEST 算法还显著提高了模型的性能,在多个下游任务上取得了新的 state-of-the-art 结果。

然而,JEST 算法也存在一些潜在的局限性。首先,JEST 算法的实现可能需要大量的计算资源和存储空间,这可能会限制其在资源受限的环境中的应用。其次,JEST 算法的性能可能受到预训练参考模型的质量和多样性的影响,因此选择合适的参考模型至关重要。

论文地址:https://arxiv.org/pdf/2406.17711

目录
相关文章
|
1月前
|
存储 机器学习/深度学习 算法
蓝桥杯练习题(三):Python组之算法训练提高综合五十题
蓝桥杯Python编程练习题的集合,涵盖了从基础到提高的多个算法题目及其解答。
60 3
蓝桥杯练习题(三):Python组之算法训练提高综合五十题
|
19天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
机器学习/深度学习 人工智能 并行计算
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat 是一款革命性的平台,专为简化和加速类ChatGPT模型的训练而设计。通过一键式脚本,用户可以轻松完成从预训练模型到生成自定义ChatGPT模型的全过程。该系统复刻了InstructGPT的RLHF训练方法,并集成了一系列优化技术,如DeepSpeed Hybrid Engine,大幅提升了训练效率和经济性。使用DeepSpeed Chat,即使是拥有数千亿参数的大模型,也能在短时间内完成训练,且成本显著降低。无论是单GPU还是多GPU集群环境,DeepSpeed Chat都能提供卓越的性能和易用性,让RLHF训练变得更加普及。
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
|
1月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
1月前
|
算法 Java C++
【贪心算法】算法训练 ALGO-1003 礼物(C/C++)
【贪心算法】算法训练 ALGO-1003 礼物(C/C++)
【贪心算法】算法训练 ALGO-1003 礼物(C/C++)
|
1月前
|
算法 C++
蓝桥 算法训练 共线(C++)
蓝桥 算法训练 共线(C++)
|
3月前
|
人工智能 开发者 芯片
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
使用AI大语言模型编写 单片机程序. 使用的是 OpenAI公司发布的 ChatGPT .在ChatGPT上有别人训练好的 单片机工程师 with Keil uVision 5 - C Code Explainer模型, 可以上传电路图改模型可以通过这个用户所给的电路图进行编程.
250 0
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
|
4月前
knn增强数据训练
【7月更文挑战第27天】
37 10
|
4月前
knn增强数据训练
【7月更文挑战第28天】
40 2
|
3月前
|
算法 搜索推荐
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较