TPAMI 2024:ProCo: 无限contrastive pairs的长尾对比学习

简介: 【8月更文挑战第17天】在深度学习领域,长尾分布问题困扰着视觉识别任务。针对监督对比学习(SCL)在长尾数据中受限于批量大小的问题,清华大学的研究者在TPAMI 2024发表了一种概率对比学习方法ProCo。ProCo通过估计特征空间中的样本分布,允许在小批量数据中高效构建对比对,采用vMF混合模型简化分布估计,实现无限对比对的采样和封闭形式的对比损失,有效解决了SCL的固有问题。此方法不仅提升了长尾类别的识别精度,还适用于半监督学习场景。尽管存在假设限制和超参数调整需求,ProCo在多种任务和数据集上展示了显著的性能提升。

在深度学习领域,长尾分布问题一直是视觉识别任务中的一个难题。长尾分布指的是在现实世界的数据集中,少数类别拥有大量样本,而大多数类别只有少量样本,形成一种从“头”到“尾”样本数量指数级递减的不平衡分布。这种不平衡的数据分布对标准的监督学习算法构成了挑战,因为这些算法主要是为平衡的数据集设计的。近年来,监督对比学习(Supervised Contrastive Learning, SCL)因其在缓解数据不平衡方面的潜力而受到关注。然而,SCL的性能受限于其需要足够大的批量数据来构建涵盖所有类别的对比对,这在类别不平衡的数据中难以实现。

针对这一问题,清华大学的Chaoqun Du、Yulin Wang、Shiji Song和Gao Huang在IEEE TPAMI 2024年的一篇论文中提出了一种新颖的概率对比学习方法——ProCo(Probabilistic Contrastive Learning)。ProCo算法的核心思想是通过估计每个类别在特征空间中的样本数据分布,并据此采样对比对。ProCo算法的提出,旨在解决SCL在处理长尾分布数据时对大批量数据的依赖性,通过引入von Mises-Fisher(vMF)分布的混合模型来估计特征分布,从而允许在小批量数据中高效地估计所有类别的分布参数。

ProCo算法的提出,是对现有对比学习技术的一次重要补充。它通过简化的假设——即对比学习中的归一化特征遵循单位空间上的vMF分布——实现了两个主要优势:首先,可以通过仅使用第一阶样本矩来估计分布参数,这可以在不同批次中高效地在线计算;其次,基于估计的分布,vMF分布允许我们采样无限数量的对比对,并导出期望对比损失的封闭形式,从而实现高效优化。

ProCo算法不仅适用于长尾问题,还可以直接应用于半监督学习,通过为未标记数据生成伪标签,进而用于估计样本的分布。理论上,论文对ProCo的误差界限进行了分析,并通过在监督/半监督视觉识别和目标检测任务上的广泛实验结果证明了ProCo在多个数据集上持续超越现有方法的性能。

然而,ProCo算法也有其局限性。首先,ProCo依赖于vMF分布的假设,这可能不适用于所有类型的数据分布。此外,ProCo算法在实际应用中可能需要调整多个超参数以适应不同的数据集和任务,这可能会增加模型训练的复杂性。尽管如此,ProCo算法在处理长尾分布问题上展现出的潜力和效果是值得肯定的。

论文的实验部分对ProCo算法进行了深入的评估。作者在多个长尾和平衡数据集上进行了实验,包括CIFAR10/100-LT、ImageNet-LT、iNaturalist 2018和LVIS v1。实验结果表明,ProCo在各种情况下都能有效地提高模型的泛化性能,尤其是在长尾类别上。此外,ProCo算法在半监督学习任务中也显示出了良好的性能,证明了其在现实世界不平衡数据集中的应用潜力。

论文链接: https://arxiv.org/pdf/2403.06726

目录
相关文章
|
机器学习/深度学习 开发框架 .NET
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
2671 0
YOLOv5的Tricks | 【Trick6】学习率调整策略(One Cycle Policy、余弦退火等)
|
2月前
|
机器学习/深度学习
ProCo: 无限contrastive pairs的长尾对比学习——TPAMI 2024最新成果解读
【10月更文挑战第3天】《ProCo: Infinite Contrastive Pairs for Long-Tailed Contrastive Learning》是TPAMI 2024的最新成果,针对现实世界图像数据中的长尾分布问题,提出了一种通过生成无限对比对来提升模型效果的方法。ProCo包括构建原型网络、生成对比对、设计对比损失函数及优化策略。实验结果显示,ProCo在多个长尾数据集上显著优于现有方法。此外,还提供了简化版示例代码,便于读者理解和应用。未来,该领域有望涌现更多创新研究。
75 3
|
4月前
|
机器学习/深度学习 人工智能 资源调度
【博士每天一篇文献-算法】连续学习算法之HAT: Overcoming catastrophic forgetting with hard attention to the task
本文介绍了一种名为Hard Attention to the Task (HAT)的连续学习算法,通过学习几乎二值的注意力向量来克服灾难性遗忘问题,同时不影响当前任务的学习,并通过实验验证了其在减少遗忘方面的有效性。
85 12
|
7月前
|
人工智能 测试技术 vr&ar
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式,通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS,同时加快了20倍推理速度,超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律,解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力,适用于图像修复等任务,未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)
142 1
|
7月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能平台PAI产品使用合集之在使用DSSM负采样时,不知道label_fields的配置方法如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 自然语言处理 算法
Topical PageRank(TPR)论文解读
现基于图的关键字抽取算法都是通过单个单词的在网络中的随机游走,来得出每个单词的重要性得分。文档和单词能被混合语义主题呈现,作者提出将传统的随机游走算法分解成多个不同主题的随机游走。作者建立了一个Topical PageRank算法在不同主题图上进行随机游走
120 0
|
机器学习/深度学习 算法
少样本学习系列(三)【Optimization-Based Methods】
少样本学习系列(三)【Optimization-Based Methods】
149 0
|
存储 关系型数据库 数据挖掘
R语言-Chunk大型数据框与稀疏矩阵应对 as.matrix溢出异常 “problem too large”
本文提出一种在R里面将大型数据集通过分块的方式转换出 DataFrame和 SparseMatrix的方法,能有效避免内存溢出、程序崩溃等严重问题。
291 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器
7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器
152 0
|
机器学习/深度学习 自然语言处理 前端开发
7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍
7 Papers & Radios | GPT-4学会反思;ChatGPT数据标注比人便宜20倍
180 0

热门文章

最新文章