谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍

简介: 【8月更文挑战第31天】近日,谷歌发布了一项名为多模态对比学习联合示例选择(JEST)的研究成果,旨在优化大模型预训练过程中的数据筛选。JEST通过联合选择数据批次而非独立选择示例,利用多模态对比目标揭示数据间的依赖关系,提高了学习效率。实验表明,JEST能显著加速训练并降低计算成本,最多减少13倍迭代次数和10倍计算量。这一成果有望推动大模型预训练更加高效和经济。论文详情见:https://arxiv.org/abs/2406.17711。

近日,谷歌发布了一项关于大模型数据筛选方法的研究成果,该方法被称为多模态对比学习联合示例选择(JEST)。这项研究展示了在大规模预训练过程中,通过联合选择数据批次而不是独立选择示例,可以更有效地进行学习。

在人工智能领域,大模型的预训练是至关重要的一步。然而,由于数据量庞大且质量参差不齐,如何高效地筛选和利用数据成为了一个关键问题。传统的数据筛选方法通常是基于独立选择示例的方式,即根据单个数据点的重要性来选择。然而,这种方式可能无法充分利用数据之间的关联性和互补性。

JEST方法的核心思想是联合选择数据批次,即根据整个批次的数据质量和相关性来选择。具体而言,JEST利用多模态对比目标来揭示数据之间的依赖关系,并基于这些依赖关系来评估批次的联合可学习性。然后,通过一个简单而可行的算法来选择具有较高联合可学习性的批次。

根据谷歌的实验结果,JEST方法在多个方面都表现出了显著的性能提升。首先,JEST方法可以显著加速训练过程,相比于传统的独立选择示例的方法,JEST方法最多可以减少13倍的迭代次数。其次,JEST方法还可以降低计算成本,最多可以减少10倍的计算量。

这些性能提升主要得益于JEST方法的几个关键优势。首先,JEST方法能够更好地利用数据之间的关联性和互补性,从而提高学习效果。其次,JEST方法可以通过选择更大的超批次来提高性能,并利用模型逼近等技术来减少相应的计算开销。最后,JEST方法还可以通过预训练的参考模型来引导数据选择过程,从而更好地适应小规模、精心策划的数据集分布。

JEST方法的发布引起了人工智能领域的广泛关注和讨论。一些专家认为,JEST方法为大模型的预训练提供了一种更高效、更经济的数据筛选解决方案,有望在实际应用中产生深远的影响。然而,也有观点认为,JEST方法的适用性和效果可能受到数据集规模和质量的限制,需要进一步的研究和验证。

论文地址:https://arxiv.org/abs/2406.17711

目录
相关文章
|
6月前
|
数据采集 人工智能 测试技术
3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
【5月更文挑战第21天】CLLM,一种新方法,通过并行解码提升大型语言模型推理速度3-4倍,降低内存成本,超越Medusa2。采用Jacobi解码和微调策略,保证生成质量。无需修改模型架构,训练成本低,可与现有技术集成。但依赖高质量数据集,更大数据集可提高泛化能力。[链接](https://arxiv.org/pdf/2403.00835)
65 2
|
测试技术 Docker 索引
性能提升40倍——线上真实重构案例分享
性能提升40倍——线上真实重构案例分享
240 0
|
存储 Web App开发 缓存
跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了
跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了
232 0
跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了
|
存储 算法 数据可视化
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
189 0
|
存储 机器学习/深度学习 人工智能
训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态
训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态
166 0
|
机器学习/深度学习 人工智能 监控
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
|
存储 人工智能 搜索推荐
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
331 0
|
机器学习/深度学习 存储 人工智能
单机训练200亿参数大模型:Cerebras打破新纪录
单机训练200亿参数大模型:Cerebras打破新纪录
208 0
|
机器学习/深度学习 人工智能 安全
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
110 0
|
存储 传感器 机器学习/深度学习
V2X会是未来趋势吗?看看这种轻量级方法,大幅降低碰撞概率!
本文提出了一种Ledger概念,它通过Ledger信息的广播,在一个资源预留区间(RRI)内向网络中的每辆车传递碰撞信息。碰撞车辆知道它已经与其他车辆相撞,并将在下一个 SPS 期间重新选择。除此之外,其他协议都遵循 SPS。通过引入 Ledger,虽然牺牲了14.29% 的资源,但最终可以降低碰撞概率。本文使用蒙特卡罗模拟器对Ledger系统的性能进行了验证和分析。数值结果表明,遵循 SPS 协议,Ledger 系统可以使碰撞概率在一定数量 RRI 后收敛到零。
V2X会是未来趋势吗?看看这种轻量级方法,大幅降低碰撞概率!