在人工智能领域,对比学习(Contrastive Learning, CL)作为一种无监督的视觉表示学习方法,已经取得了显著的成功。然而,这种方法通常依赖于大量的手动数据增强,这不仅耗时耗力,而且效率不高。随着生成模型,尤其是扩散模型(Diffusion Models)的兴起,人们开始尝试利用这些模型生成的高质量图像来增强对比学习,这种技术被称为“数据膨胀”(Data Inflation)。但是,最新的研究成果表明,即使是来自优秀的扩散模型的生成数据,有时也可能对对比学习产生负面影响。这一发现挑战了人们对于生成数据总是有益的传统认知。
在ICLR 2024会议上,北京大学的研究团队提出了一种名为“自适应膨胀”(Adaptive Inflation, AdaInf)的策略,该策略不需要额外的计算成本,就能显著提高各种对比学习方法的性能。AdaInf的核心思想是,根据生成数据的质量和规模,适应性地调整数据增强的强度和数据膨胀的混合比例。实验结果表明,AdaInf在没有使用外部数据的情况下,就能在CIFAR-10数据集上达到94.70%的线性准确率,创下了新的记录。
这项研究首先发现,即使是来自像DDPM这样的优秀扩散模型的生成数据,也可能对对比学习造成损害。研究团队从数据膨胀和数据增强两个角度探讨了这种失败的原因,并首次揭示了在数据膨胀中,更强的数据膨胀应该伴随着更弱的增强,反之亦然。研究还通过推导数据膨胀下的泛化界限,为这些现象提供了严格的理论解释。
AdaInf策略的提出,是基于对数据膨胀和数据增强互补作用的深刻理解。研究表明,当数据膨胀能够带来足够的图连通性时,为了进一步最小化泛化误差,可以相应地采用更弱的数据增强。反之,如果数据规模过小,就需要采用更强的增强来获得更好的连通性。因此,膨胀和增强在泛化中具有互补作用,增加其中一个将减少对另一个的需求,反之亦然。这样,随着膨胀数据的增加,最佳的增强强度将向较低的方向转移。
此外,研究还发现,数据增强的强度对于数据膨胀的性能有重要影响。更强的数据增强可以提高图连通性,但同时也会增加标签错误的概率。而数据膨胀则只对图连通性有正面影响,不会改变标签错误。因此,在数据膨胀能够带来足够的图连通性的情况下,为了进一步减少泛化误差,可以适当减弱数据增强的强度。
尽管AdaInf策略在实验中取得了显著的成功,但研究也指出了其局限性。例如,当使用超过1M的生成数据样本时,如果不相应增加复制倍数,就会导致真实数据和生成数据之间的分布差距增大,从而影响性能。此外,对于不同质量的生成数据,需要调整最佳的混合比例,这可能需要额外的调整和验证。