谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍

简介: 【8月更文挑战第31天】近日,谷歌发布了一项名为多模态对比学习联合示例选择(JEST)的研究成果,旨在优化大模型预训练过程中的数据筛选。JEST通过联合选择数据批次而非独立选择示例,利用多模态对比目标揭示数据间的依赖关系,提高了学习效率。实验表明,JEST能显著加速训练并降低计算成本,最多减少13倍迭代次数和10倍计算量。这一成果有望推动大模型预训练更加高效和经济。论文详情见:https://arxiv.org/abs/2406.17711。

近日,谷歌发布了一项关于大模型数据筛选方法的研究成果,该方法被称为多模态对比学习联合示例选择(JEST)。这项研究展示了在大规模预训练过程中,通过联合选择数据批次而不是独立选择示例,可以更有效地进行学习。

在人工智能领域,大模型的预训练是至关重要的一步。然而,由于数据量庞大且质量参差不齐,如何高效地筛选和利用数据成为了一个关键问题。传统的数据筛选方法通常是基于独立选择示例的方式,即根据单个数据点的重要性来选择。然而,这种方式可能无法充分利用数据之间的关联性和互补性。

JEST方法的核心思想是联合选择数据批次,即根据整个批次的数据质量和相关性来选择。具体而言,JEST利用多模态对比目标来揭示数据之间的依赖关系,并基于这些依赖关系来评估批次的联合可学习性。然后,通过一个简单而可行的算法来选择具有较高联合可学习性的批次。

根据谷歌的实验结果,JEST方法在多个方面都表现出了显著的性能提升。首先,JEST方法可以显著加速训练过程,相比于传统的独立选择示例的方法,JEST方法最多可以减少13倍的迭代次数。其次,JEST方法还可以降低计算成本,最多可以减少10倍的计算量。

这些性能提升主要得益于JEST方法的几个关键优势。首先,JEST方法能够更好地利用数据之间的关联性和互补性,从而提高学习效果。其次,JEST方法可以通过选择更大的超批次来提高性能,并利用模型逼近等技术来减少相应的计算开销。最后,JEST方法还可以通过预训练的参考模型来引导数据选择过程,从而更好地适应小规模、精心策划的数据集分布。

JEST方法的发布引起了人工智能领域的广泛关注和讨论。一些专家认为,JEST方法为大模型的预训练提供了一种更高效、更经济的数据筛选解决方案,有望在实际应用中产生深远的影响。然而,也有观点认为,JEST方法的适用性和效果可能受到数据集规模和质量的限制,需要进一步的研究和验证。

论文地址:https://arxiv.org/abs/2406.17711

目录
相关文章
|
3月前
|
机器学习/深度学习 物联网 异构计算
ExVideo+CogVideoX,更长、更优!再次升级的开源视频生成能力
DiffSynth-Studio 再次为 CogVideoX 带来新的增强模块——ExVideo-CogVideoX-LoRA-129f-v1
|
8月前
|
数据采集 人工智能 测试技术
3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
【5月更文挑战第21天】CLLM,一种新方法,通过并行解码提升大型语言模型推理速度3-4倍,降低内存成本,超越Medusa2。采用Jacobi解码和微调策略,保证生成质量。无需修改模型架构,训练成本低,可与现有技术集成。但依赖高质量数据集,更大数据集可提高泛化能力。[链接](https://arxiv.org/pdf/2403.00835)
82 2
|
8月前
|
人工智能 自然语言处理 算法
2024年,将出现更大、更优的大模型
【1月更文挑战第21天】2024年,将出现更大、更优的大模型
112 3
2024年,将出现更大、更优的大模型
|
测试技术 Docker 索引
性能提升40倍——线上真实重构案例分享
性能提升40倍——线上真实重构案例分享
256 0
|
存储 算法 数据可视化
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
205 0
|
存储 机器学习/深度学习 人工智能
训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态
训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态
177 0
|
机器学习/深度学习 人工智能 监控
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
106 0
|
存储 人工智能 搜索推荐
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
350 0
|
机器学习/深度学习 人工智能 搜索推荐
Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地
Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地
238 0
|
机器学习/深度学习 Kubernetes 搜索推荐
突破百万亿参数规模,追求极致的效率和性价比:华人团队开源首个异构并行推荐系统训练框架Persia
突破百万亿参数规模,追求极致的效率和性价比:华人团队开源首个异构并行推荐系统训练框架Persia
202 0

热门文章

最新文章