最近,DeepMind 提出了一种名为 JEST(Joint Example Selection for Training)的新算法,该算法在多模态学习领域取得了重大突破。JEST 算法通过联合选择数据批次,显著提高了模型的训练效率和性能,同时大幅降低了能耗。
JEST 算法的核心思想是,在大规模预训练过程中,数据的联合选择比独立选择更有效。多模态对比目标揭示了数据之间的依赖性,从而为衡量批次的联合可学习性提供了自然的标准。基于此,JEST 算法提出了一种简单且可处理的算法,用于选择这样的批次,从而显著加速了训练过程。
具体来说,JEST 算法通过以下方式提高了训练效率:
联合选择数据批次:JEST 算法不仅仅考虑单个数据点的质量,而是将数据批次作为一个整体来考虑。它通过选择具有高联合可学习性的批次,即那些在模型中产生高损失的批次,来提高训练效率。
使用预训练参考模型:JEST 算法利用预训练的参考模型来指导数据选择过程。通过将数据选择过程引导到较小、精心策划的数据集的分布上,JEST 算法能够实现强大的数据质量引导。
多分辨率训练:为了提高训练效率,JEST 算法采用了多分辨率训练的方法。通过在不同的分辨率下训练模型,JEST 算法能够有效地利用计算资源,并提高训练速度。
高效的数据评分:JEST 算法通过使用在线模型近似和低分辨率评分来减少数据评分的计算成本。这进一步提高了训练效率,并减少了总的能耗。
JEST 算法在实验中取得了令人印象深刻的结果。与基线模型相比,JEST 算法在训练效率上提高了13倍,在能耗上降低了10倍。此外,JEST 算法还显著提高了模型的性能,在多个下游任务上取得了新的 state-of-the-art 结果。
然而,JEST 算法也存在一些潜在的局限性。首先,JEST 算法的实现可能需要大量的计算资源和存储空间,这可能会限制其在资源受限的环境中的应用。其次,JEST 算法的性能可能受到预训练参考模型的质量和多样性的影响,因此选择合适的参考模型至关重要。