近日,谷歌发布了一项关于大模型数据筛选方法的研究成果,该方法被称为多模态对比学习联合示例选择(JEST)。这项研究展示了在大规模预训练过程中,通过联合选择数据批次而不是独立选择示例,可以更有效地进行学习。
在人工智能领域,大模型的预训练是至关重要的一步。然而,由于数据量庞大且质量参差不齐,如何高效地筛选和利用数据成为了一个关键问题。传统的数据筛选方法通常是基于独立选择示例的方式,即根据单个数据点的重要性来选择。然而,这种方式可能无法充分利用数据之间的关联性和互补性。
JEST方法的核心思想是联合选择数据批次,即根据整个批次的数据质量和相关性来选择。具体而言,JEST利用多模态对比目标来揭示数据之间的依赖关系,并基于这些依赖关系来评估批次的联合可学习性。然后,通过一个简单而可行的算法来选择具有较高联合可学习性的批次。
根据谷歌的实验结果,JEST方法在多个方面都表现出了显著的性能提升。首先,JEST方法可以显著加速训练过程,相比于传统的独立选择示例的方法,JEST方法最多可以减少13倍的迭代次数。其次,JEST方法还可以降低计算成本,最多可以减少10倍的计算量。
这些性能提升主要得益于JEST方法的几个关键优势。首先,JEST方法能够更好地利用数据之间的关联性和互补性,从而提高学习效果。其次,JEST方法可以通过选择更大的超批次来提高性能,并利用模型逼近等技术来减少相应的计算开销。最后,JEST方法还可以通过预训练的参考模型来引导数据选择过程,从而更好地适应小规模、精心策划的数据集分布。
JEST方法的发布引起了人工智能领域的广泛关注和讨论。一些专家认为,JEST方法为大模型的预训练提供了一种更高效、更经济的数据筛选解决方案,有望在实际应用中产生深远的影响。然而,也有观点认为,JEST方法的适用性和效果可能受到数据集规模和质量的限制,需要进一步的研究和验证。