ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练

简介: 【4月更文挑战第3天】北京大学研究团队在ICLR 2024会议上提出了“自适应膨胀”(AdaInf)策略,改善对比学习效果。该策略针对数据膨胀(使用扩散模型生成图像增强)可能导致对比学习性能下降的问题,通过动态调整数据增强强度和混合比例,提升多种对比学习方法的性能。实验显示,AdaInf在不使用外部数据的情况下,使CIFAR-10线性准确率达到94.70%,刷新纪录。研究还揭示了数据增强与数据膨胀的互补关系,以及它们如何影响泛化误差。然而,AdaInf在大量生成数据和不同质量数据上的应用仍存在局限性。

abe6a34edb41b08fa36b402db45b77af.jpeg
在人工智能领域,对比学习(Contrastive Learning, CL)作为一种无监督的视觉表示学习方法,已经取得了显著的成功。然而,这种方法通常依赖于大量的手动数据增强,这不仅耗时耗力,而且效率不高。随着生成模型,尤其是扩散模型(Diffusion Models)的兴起,人们开始尝试利用这些模型生成的高质量图像来增强对比学习,这种技术被称为“数据膨胀”(Data Inflation)。但是,最新的研究成果表明,即使是来自优秀的扩散模型的生成数据,有时也可能对对比学习产生负面影响。这一发现挑战了人们对于生成数据总是有益的传统认知。

在ICLR 2024会议上,北京大学的研究团队提出了一种名为“自适应膨胀”(Adaptive Inflation, AdaInf)的策略,该策略不需要额外的计算成本,就能显著提高各种对比学习方法的性能。AdaInf的核心思想是,根据生成数据的质量和规模,适应性地调整数据增强的强度和数据膨胀的混合比例。实验结果表明,AdaInf在没有使用外部数据的情况下,就能在CIFAR-10数据集上达到94.70%的线性准确率,创下了新的记录。

这项研究首先发现,即使是来自像DDPM这样的优秀扩散模型的生成数据,也可能对对比学习造成损害。研究团队从数据膨胀和数据增强两个角度探讨了这种失败的原因,并首次揭示了在数据膨胀中,更强的数据膨胀应该伴随着更弱的增强,反之亦然。研究还通过推导数据膨胀下的泛化界限,为这些现象提供了严格的理论解释。

AdaInf策略的提出,是基于对数据膨胀和数据增强互补作用的深刻理解。研究表明,当数据膨胀能够带来足够的图连通性时,为了进一步最小化泛化误差,可以相应地采用更弱的数据增强。反之,如果数据规模过小,就需要采用更强的增强来获得更好的连通性。因此,膨胀和增强在泛化中具有互补作用,增加其中一个将减少对另一个的需求,反之亦然。这样,随着膨胀数据的增加,最佳的增强强度将向较低的方向转移。

此外,研究还发现,数据增强的强度对于数据膨胀的性能有重要影响。更强的数据增强可以提高图连通性,但同时也会增加标签错误的概率。而数据膨胀则只对图连通性有正面影响,不会改变标签错误。因此,在数据膨胀能够带来足够的图连通性的情况下,为了进一步减少泛化误差,可以适当减弱数据增强的强度。

尽管AdaInf策略在实验中取得了显著的成功,但研究也指出了其局限性。例如,当使用超过1M的生成数据样本时,如果不相应增加复制倍数,就会导致真实数据和生成数据之间的分布差距增大,从而影响性能。此外,对于不同质量的生成数据,需要调整最佳的混合比例,这可能需要额外的调整和验证。

论文地址:https://arxiv.org/abs/2403.12448

目录
相关文章
|
13天前
|
机器学习/深度学习 分布式计算 算法
联邦学习是保障数据隐私的分布式机器学习方法
【6月更文挑战第13天】联邦学习是保障数据隐私的分布式机器学习方法,它在不暴露数据的情况下,通过在各设备上本地训练并由中心服务器协调,实现全局模型构建。联邦学习的优势在于保护隐私、提高训练效率和增强模型泛化。已应用于医疗、金融和物联网等领域。未来趋势包括更高效的数据隐私保护、提升可解释性和可靠性,以及与其他技术融合,有望在更多场景发挥潜力,推动机器学习发展。
24 4
|
9天前
|
机器学习/深度学习 算法 Python
机器学习算法的比较与选择是在实际应用中非常重要的一步,不同的算法适用于不同的问题和数据特征。
机器学习算法的比较与选择是在实际应用中非常重要的一步,不同的算法适用于不同的问题和数据特征。
|
13天前
|
机器学习/深度学习 数据采集 算法
机器学习入门:算法与数据的探索之旅
【6月更文挑战第13天】本文介绍了机器学习的基础,包括算法和数据处理的重要性。机器学习算法分为监督学习(如线性回归、决策树)、非监督学习(如聚类、降维)和强化学习。数据处理涉及数据清洗、特征工程、数据分割及标准化,是保证模型性能的关键。对于初学者,建议学习基础数学、动手实践、阅读经典资料和参与在线课程与社区讨论。
|
1月前
|
机器学习/深度学习 数据采集 分布式计算
【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分
标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。
|
1月前
|
机器学习/深度学习 分布式计算 算法
【机器学习】Spark ML 对数据特征进行 One-Hot 编码
One-Hot 编码是机器学习中将离散特征转换为数值表示的方法,每个取值映射为一个二进制向量,常用于避免特征间大小关系影响模型。Spark ML 提供 OneHotEncoder 进行编码,输入输出列可通过 `inputCol` 和 `outputCol` 参数设置。在示例中,先用 StringIndexer 对类别特征编码,再用 OneHotEncoder 转换,最后展示编码结果。注意 One-Hot 编码可能导致高维问题,可结合实际情况选择编码方式。
|
5天前
|
机器学习/深度学习 数据挖掘
机器学习之聚类——谱聚类简介及其对特殊形状区域数据的聚类
机器学习之聚类——谱聚类简介及其对特殊形状区域数据的聚类
5 0
|
7天前
|
机器学习/深度学习 人工智能 算法
【机器学习】模型、算法与数据—机器学习三要素
【机器学习】模型、算法与数据—机器学习三要素
110 0
|
7天前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
149 0
|
7天前
|
机器学习/深度学习 监控
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
27 0
|
1月前
|
机器学习/深度学习
【机器学习】噪声数据对贝叶斯模型有什么样的影响?
【5月更文挑战第10天】【机器学习】噪声数据对贝叶斯模型有什么样的影响?