谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍-阿里云开发者社区

谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍

2024-08-31 82

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第31天】近日，谷歌发布了一项名为多模态对比学习联合示例选择（JEST）的研究成果，旨在优化大模型预训练过程中的数据筛选。JEST通过联合选择数据批次而非独立选择示例，利用多模态对比目标揭示数据间的依赖关系，提高了学习效率。实验表明，JEST能显著加速训练并降低计算成本，最多减少13倍迭代次数和10倍计算量。这一成果有望推动大模型预训练更加高效和经济。论文详情见：https://arxiv.org/abs/2406.17711。

近日，谷歌发布了一项关于大模型数据筛选方法的研究成果，该方法被称为多模态对比学习联合示例选择（JEST）。这项研究展示了在大规模预训练过程中，通过联合选择数据批次而不是独立选择示例，可以更有效地进行学习。

在人工智能领域，大模型的预训练是至关重要的一步。然而，由于数据量庞大且质量参差不齐，如何高效地筛选和利用数据成为了一个关键问题。传统的数据筛选方法通常是基于独立选择示例的方式，即根据单个数据点的重要性来选择。然而，这种方式可能无法充分利用数据之间的关联性和互补性。

JEST方法的核心思想是联合选择数据批次，即根据整个批次的数据质量和相关性来选择。具体而言，JEST利用多模态对比目标来揭示数据之间的依赖关系，并基于这些依赖关系来评估批次的联合可学习性。然后，通过一个简单而可行的算法来选择具有较高联合可学习性的批次。

根据谷歌的实验结果，JEST方法在多个方面都表现出了显著的性能提升。首先，JEST方法可以显著加速训练过程，相比于传统的独立选择示例的方法，JEST方法最多可以减少13倍的迭代次数。其次，JEST方法还可以降低计算成本，最多可以减少10倍的计算量。

这些性能提升主要得益于JEST方法的几个关键优势。首先，JEST方法能够更好地利用数据之间的关联性和互补性，从而提高学习效果。其次，JEST方法可以通过选择更大的超批次来提高性能，并利用模型逼近等技术来减少相应的计算开销。最后，JEST方法还可以通过预训练的参考模型来引导数据选择过程，从而更好地适应小规模、精心策划的数据集分布。

JEST方法的发布引起了人工智能领域的广泛关注和讨论。一些专家认为，JEST方法为大模型的预训练提供了一种更高效、更经济的数据筛选解决方案，有望在实际应用中产生深远的影响。然而，也有观点认为，JEST方法的适用性和效果可能受到数据集规模和质量的限制，需要进一步的研究和验证。

论文地址：https://arxiv.org/abs/2406.17711

谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍

热门文章

最新文章

相关课程

相关电子书

相关实验场景