ICLR 2024：鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练-阿里云开发者社区

ICLR 2024：鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

2024-04-03 89

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第3天】北京大学研究团队在ICLR 2024会议上提出了“自适应膨胀”（AdaInf）策略，改善对比学习效果。该策略针对数据膨胀（使用扩散模型生成图像增强）可能导致对比学习性能下降的问题，通过动态调整数据增强强度和混合比例，提升多种对比学习方法的性能。实验显示，AdaInf在不使用外部数据的情况下，使CIFAR-10线性准确率达到94.70%，刷新纪录。研究还揭示了数据增强与数据膨胀的互补关系，以及它们如何影响泛化误差。然而，AdaInf在大量生成数据和不同质量数据上的应用仍存在局限性。

在人工智能领域，对比学习（Contrastive Learning, CL）作为一种无监督的视觉表示学习方法，已经取得了显著的成功。然而，这种方法通常依赖于大量的手动数据增强，这不仅耗时耗力，而且效率不高。随着生成模型，尤其是扩散模型（Diffusion Models）的兴起，人们开始尝试利用这些模型生成的高质量图像来增强对比学习，这种技术被称为“数据膨胀”（Data Inflation）。但是，最新的研究成果表明，即使是来自优秀的扩散模型的生成数据，有时也可能对对比学习产生负面影响。这一发现挑战了人们对于生成数据总是有益的传统认知。

在ICLR 2024会议上，北京大学的研究团队提出了一种名为“自适应膨胀”（Adaptive Inflation, AdaInf）的策略，该策略不需要额外的计算成本，就能显著提高各种对比学习方法的性能。AdaInf的核心思想是，根据生成数据的质量和规模，适应性地调整数据增强的强度和数据膨胀的混合比例。实验结果表明，AdaInf在没有使用外部数据的情况下，就能在CIFAR-10数据集上达到94.70%的线性准确率，创下了新的记录。

这项研究首先发现，即使是来自像DDPM这样的优秀扩散模型的生成数据，也可能对对比学习造成损害。研究团队从数据膨胀和数据增强两个角度探讨了这种失败的原因，并首次揭示了在数据膨胀中，更强的数据膨胀应该伴随着更弱的增强，反之亦然。研究还通过推导数据膨胀下的泛化界限，为这些现象提供了严格的理论解释。

AdaInf策略的提出，是基于对数据膨胀和数据增强互补作用的深刻理解。研究表明，当数据膨胀能够带来足够的图连通性时，为了进一步最小化泛化误差，可以相应地采用更弱的数据增强。反之，如果数据规模过小，就需要采用更强的增强来获得更好的连通性。因此，膨胀和增强在泛化中具有互补作用，增加其中一个将减少对另一个的需求，反之亦然。这样，随着膨胀数据的增加，最佳的增强强度将向较低的方向转移。

此外，研究还发现，数据增强的强度对于数据膨胀的性能有重要影响。更强的数据增强可以提高图连通性，但同时也会增加标签错误的概率。而数据膨胀则只对图连通性有正面影响，不会改变标签错误。因此，在数据膨胀能够带来足够的图连通性的情况下，为了进一步减少泛化误差，可以适当减弱数据增强的强度。

尽管AdaInf策略在实验中取得了显著的成功，但研究也指出了其局限性。例如，当使用超过1M的生成数据样本时，如果不相应增加复制倍数，就会导致真实数据和生成数据之间的分布差距增大，从而影响性能。此外，对于不同质量的生成数据，需要调整最佳的混合比例，这可能需要额外的调整和验证。

论文地址：https://arxiv.org/abs/2403.12448

ICLR 2024：鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ICLR 2024：鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

热门文章

最新文章

相关课程

相关电子书

相关实验场景