谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍

简介: 【8月更文挑战第31天】近日,谷歌发布了一项名为多模态对比学习联合示例选择(JEST)的研究成果,旨在优化大模型预训练过程中的数据筛选。JEST通过联合选择数据批次而非独立选择示例,利用多模态对比目标揭示数据间的依赖关系,提高了学习效率。实验表明,JEST能显著加速训练并降低计算成本,最多减少13倍迭代次数和10倍计算量。这一成果有望推动大模型预训练更加高效和经济。论文详情见:https://arxiv.org/abs/2406.17711。

近日,谷歌发布了一项关于大模型数据筛选方法的研究成果,该方法被称为多模态对比学习联合示例选择(JEST)。这项研究展示了在大规模预训练过程中,通过联合选择数据批次而不是独立选择示例,可以更有效地进行学习。

在人工智能领域,大模型的预训练是至关重要的一步。然而,由于数据量庞大且质量参差不齐,如何高效地筛选和利用数据成为了一个关键问题。传统的数据筛选方法通常是基于独立选择示例的方式,即根据单个数据点的重要性来选择。然而,这种方式可能无法充分利用数据之间的关联性和互补性。

JEST方法的核心思想是联合选择数据批次,即根据整个批次的数据质量和相关性来选择。具体而言,JEST利用多模态对比目标来揭示数据之间的依赖关系,并基于这些依赖关系来评估批次的联合可学习性。然后,通过一个简单而可行的算法来选择具有较高联合可学习性的批次。

根据谷歌的实验结果,JEST方法在多个方面都表现出了显著的性能提升。首先,JEST方法可以显著加速训练过程,相比于传统的独立选择示例的方法,JEST方法最多可以减少13倍的迭代次数。其次,JEST方法还可以降低计算成本,最多可以减少10倍的计算量。

这些性能提升主要得益于JEST方法的几个关键优势。首先,JEST方法能够更好地利用数据之间的关联性和互补性,从而提高学习效果。其次,JEST方法可以通过选择更大的超批次来提高性能,并利用模型逼近等技术来减少相应的计算开销。最后,JEST方法还可以通过预训练的参考模型来引导数据选择过程,从而更好地适应小规模、精心策划的数据集分布。

JEST方法的发布引起了人工智能领域的广泛关注和讨论。一些专家认为,JEST方法为大模型的预训练提供了一种更高效、更经济的数据筛选解决方案,有望在实际应用中产生深远的影响。然而,也有观点认为,JEST方法的适用性和效果可能受到数据集规模和质量的限制,需要进一步的研究和验证。

论文地址:https://arxiv.org/abs/2406.17711

目录
相关文章
|
24天前
|
机器学习/深度学习 物联网 异构计算
ExVideo+CogVideoX,更长、更优!再次升级的开源视频生成能力
DiffSynth-Studio 再次为 CogVideoX 带来新的增强模块——ExVideo-CogVideoX-LoRA-129f-v1
|
4月前
|
异构计算 索引
单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速
【7月更文挑战第24天】针对大语言模型(LLM)处理长上下文时的计算瓶颈,微软推出MInference,基于动态稀疏注意力加速预填充,使8B参数模型处理1M token从30分钟降至3分钟,推理延迟降低10倍。通过识别注意力矩阵模式(A形、斜线、块稀疏),仅计算关键权重,无需修改预训练或微调。实验证明,MInference在多个任务和模型上保持准确度,但可能不适用所有LLM类型,存在轻微性能损失风险。
136 17
|
6月前
|
数据采集 人工智能 测试技术
3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
【5月更文挑战第21天】CLLM,一种新方法,通过并行解码提升大型语言模型推理速度3-4倍,降低内存成本,超越Medusa2。采用Jacobi解码和微调策略,保证生成质量。无需修改模型架构,训练成本低,可与现有技术集成。但依赖高质量数据集,更大数据集可提高泛化能力。[链接](https://arxiv.org/pdf/2403.00835)
64 2
|
SQL 机器学习/深度学习 分布式计算
「大数据架构」Spark 3.0发布,重大变化,性能提升18倍
「大数据架构」Spark 3.0发布,重大变化,性能提升18倍
|
6月前
|
人工智能 算法 搜索推荐
某国有银行业务收益提升30倍,它究竟是怎么做到的!
在激烈的银行竞争环境下,释放存量客户的复购潜力成为关注的重点。然而,目前银行销售理财产品过程中存在一系列问题,其中一个主要原因是过度依赖理财经理的个人经验。国有银行也难以避免这些问题在目标客户定位和营销执行过程中的出现。
|
测试技术 Docker 索引
性能提升40倍——线上真实重构案例分享
性能提升40倍——线上真实重构案例分享
234 0
|
存储 Web App开发 缓存
跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了
跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了
230 0
跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了
|
存储 算法 数据可视化
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
187 0
|
机器学习/深度学习 人工智能 监控
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
|
机器学习/深度学习 存储 人工智能
单机训练200亿参数大模型:Cerebras打破新纪录
单机训练200亿参数大模型:Cerebras打破新纪录
203 0