TPAMI 2024:ProCo: 无限contrastive pairs的长尾对比学习

简介: 【8月更文挑战第17天】在深度学习领域,长尾分布问题困扰着视觉识别任务。针对监督对比学习(SCL)在长尾数据中受限于批量大小的问题,清华大学的研究者在TPAMI 2024发表了一种概率对比学习方法ProCo。ProCo通过估计特征空间中的样本分布,允许在小批量数据中高效构建对比对,采用vMF混合模型简化分布估计,实现无限对比对的采样和封闭形式的对比损失,有效解决了SCL的固有问题。此方法不仅提升了长尾类别的识别精度,还适用于半监督学习场景。尽管存在假设限制和超参数调整需求,ProCo在多种任务和数据集上展示了显著的性能提升。

在深度学习领域,长尾分布问题一直是视觉识别任务中的一个难题。长尾分布指的是在现实世界的数据集中,少数类别拥有大量样本,而大多数类别只有少量样本,形成一种从“头”到“尾”样本数量指数级递减的不平衡分布。这种不平衡的数据分布对标准的监督学习算法构成了挑战,因为这些算法主要是为平衡的数据集设计的。近年来,监督对比学习(Supervised Contrastive Learning, SCL)因其在缓解数据不平衡方面的潜力而受到关注。然而,SCL的性能受限于其需要足够大的批量数据来构建涵盖所有类别的对比对,这在类别不平衡的数据中难以实现。

针对这一问题,清华大学的Chaoqun Du、Yulin Wang、Shiji Song和Gao Huang在IEEE TPAMI 2024年的一篇论文中提出了一种新颖的概率对比学习方法——ProCo(Probabilistic Contrastive Learning)。ProCo算法的核心思想是通过估计每个类别在特征空间中的样本数据分布,并据此采样对比对。ProCo算法的提出,旨在解决SCL在处理长尾分布数据时对大批量数据的依赖性,通过引入von Mises-Fisher(vMF)分布的混合模型来估计特征分布,从而允许在小批量数据中高效地估计所有类别的分布参数。

ProCo算法的提出,是对现有对比学习技术的一次重要补充。它通过简化的假设——即对比学习中的归一化特征遵循单位空间上的vMF分布——实现了两个主要优势:首先,可以通过仅使用第一阶样本矩来估计分布参数,这可以在不同批次中高效地在线计算;其次,基于估计的分布,vMF分布允许我们采样无限数量的对比对,并导出期望对比损失的封闭形式,从而实现高效优化。

ProCo算法不仅适用于长尾问题,还可以直接应用于半监督学习,通过为未标记数据生成伪标签,进而用于估计样本的分布。理论上,论文对ProCo的误差界限进行了分析,并通过在监督/半监督视觉识别和目标检测任务上的广泛实验结果证明了ProCo在多个数据集上持续超越现有方法的性能。

然而,ProCo算法也有其局限性。首先,ProCo依赖于vMF分布的假设,这可能不适用于所有类型的数据分布。此外,ProCo算法在实际应用中可能需要调整多个超参数以适应不同的数据集和任务,这可能会增加模型训练的复杂性。尽管如此,ProCo算法在处理长尾分布问题上展现出的潜力和效果是值得肯定的。

论文的实验部分对ProCo算法进行了深入的评估。作者在多个长尾和平衡数据集上进行了实验,包括CIFAR10/100-LT、ImageNet-LT、iNaturalist 2018和LVIS v1。实验结果表明,ProCo在各种情况下都能有效地提高模型的泛化性能,尤其是在长尾类别上。此外,ProCo算法在半监督学习任务中也显示出了良好的性能,证明了其在现实世界不平衡数据集中的应用潜力。

论文链接: https://arxiv.org/pdf/2403.06726

目录
相关文章
|
机器学习/深度学习 Ruby
YOLOv8改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
YOLOv8改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
1211 0
|
机器学习/深度学习 Ruby
YOLOv5改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
YOLOv5改进 | 2023注意力篇 | iRMB倒置残差块注意力机制(轻量化注意力机制)
814 0
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
计算机视觉
OpenCV3 和 Qt5 计算机视觉:1~5
OpenCV3 和 Qt5 计算机视觉:1~5
580 0
|
3月前
|
人工智能 自然语言处理 算法
大模型赋能文献综述:研究生必备的技术化梳理指南原创
本文针对研究生文献综述三大痛点——筛选低效、逻辑混乱、格式繁琐,提出基于AI大模型(如PaperRed、ChatPDF)的技术化解决方案:语义检索精准筛选核心文献、知识图谱智能构建逻辑框架、规范库自动适配引用格式,并支持学科定制与文献计量分析,显著提升综述效率与深度。(239字)
|
机器学习/深度学习 编解码 人工智能
人脸表情[七种表情]数据集(15500张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
本数据集包含15,500张已划分、已标注的人脸表情图像,覆盖惊讶、恐惧、厌恶、高兴、悲伤、愤怒和中性七类表情,适用于YOLO系列等深度学习模型的分类与检测任务。数据集结构清晰,分为训练集与测试集,支持多种标注格式转换,适用于人机交互、心理健康、驾驶监测等多个领域。
|
机器学习/深度学习
ProCo: 无限contrastive pairs的长尾对比学习——TPAMI 2024最新成果解读
【10月更文挑战第3天】《ProCo: Infinite Contrastive Pairs for Long-Tailed Contrastive Learning》是TPAMI 2024的最新成果,针对现实世界图像数据中的长尾分布问题,提出了一种通过生成无限对比对来提升模型效果的方法。ProCo包括构建原型网络、生成对比对、设计对比损失函数及优化策略。实验结果显示,ProCo在多个长尾数据集上显著优于现有方法。此外,还提供了简化版示例代码,便于读者理解和应用。未来,该领域有望涌现更多创新研究。
439 3
|
10月前
|
安全 JavaScript Java
Python中None与NoneType的真相:从单例对象到类型系统的深度解析
本文通过10个真实场景,深入解析Python中表示“空值”的None与NoneType。从单例模式、函数返回值,到类型注解、性能优化,全面揭示None在语言设计与实际编程中的核心作用,帮助开发者正确高效地处理“无值”状态,写出更健壮、清晰的Python代码。
878 3
|
10月前
|
关系型数据库 MySQL 数据库
为什么 MySQL 不推荐用 Docker 部署?
本文探讨了MySQL是否适合容器化的问题,分析了Docker容器在数据安全、性能瓶颈、状态管理及资源隔离等方面的挑战,并指出目前主流分布式数据库如TDSQL和OceanBase仍倾向于部署在物理机或KVM上。
469 0
|
11月前
|
供应链 搜索推荐 安全
淘宝/京东/亚马逊API实战:中小商家的自动化生存指南
电商API是连接电商平台、商家、支付与物流系统的技术桥梁,具备商品管理、订单处理、用户服务、营销支持等功能,助力业务自动化与数据驱动决策,成为电商生态中提升效率与创新的关键基础设施。

热门文章

最新文章