一、分类|识别相关(16篇)(上)
1.1 Scaling may be all you need for achieving human-level object recognition capacity with human-like visual experience
要获得人类级别的对象识别能力,并获得与人类相似的视觉体验,缩放可能是所需的全部功能
https://arxiv.org/abs/2308.03712
本文询问当前的自监督学习方法如果充分扩展,是否能够达到人类水平的视觉对象识别能力,并具有与人类学习相同类型和数量的视觉经验。 以前关于这个问题的工作只考虑了数据大小的缩放。 在这里,我们考虑数据大小、模型大小和图像分辨率的同时缩放。 我们使用尺寸高达 633M 参数 (ViT-H/14) 的视觉转换器进行缩放实验,并使用长达 5K 小时的类人视频数据(长、连续、大部分以自我为中心的视频)进行训练,图像分辨率高达 476x476 像素 。 掩码自动编码器(MAE)作为一种自监督学习算法的效率使得在不夸张的学术预算下运行这个扩展实验成为可能。 我们发现,如果同时扩大这些因素,在模型大小、数据大小和图像大小的亚人类尺度上达到人类水平的物体识别能力是可行的。 举一个具体的例子,我们估计用 20K 小时(2.3 年)空间分辨率为 952x952 像素的类人视频数据训练的 2.5B 参数 ViT 模型应该能够在 ImageNet 上达到大致人类水平的精度。 因此,通过类人感知体验(在数量和类型上与人类相似)的基本感知能力,可以通过极其通用的学习算法和架构来实现人类水平的能力,并且没有任何实质性的归纳偏差。
1.2 Video-based Person Re-identification with Long Short-Term Representation Learning
基于长时间短期表征学习的视频人物再识别
https://arxiv.org/abs/2308.03703
基于视频的人员重新识别(V-ReID)旨在从非重叠摄像机捕获的原始视频中检索特定人员。 作为一项基本任务,它传播了许多多媒体和计算机视觉应用。 然而,由于人和场景的变化,要获得高性能仍然有许多障碍需要克服。 在这项工作中,我们注意到人的长期和短期信息对于稳健的视频表示都很重要。 因此,我们提出了一种名为长短期表示学习(LSTRL)的新型深度学习框架,以实现有效的 V-ReID。 更具体地说,为了提取长期表示,我们提出了一种多粒度外观提取器(MAE),其中跨多个帧有效捕获四种粒度外观。 同时,为了提取短期表示,我们提出了一种双向运动估计器(BME),其中从连续帧中有效地提取相互运动信息。 MAE 和 BME 是即插即用的,可以轻松插入现有网络以进行高效的特征学习。 因此,它们显着提高了 V-ReID 的特征表示能力。 对三个广泛使用的基准进行的广泛实验表明,我们提出的方法可以提供比大多数最先进的方法更好的性能。
1.3 Learning Concise and Descriptive Attributes for Visual Recognition
学习用于视觉识别的简明和描述性属性
https://arxiv.org/abs/2308.03685
基础模型的最新进展为可解释的视觉识别提供了新的机会——人们可以首先查询大型语言模型(LLM)以获得一组描述每个类别的属性,然后应用视觉语言模型通过这些属性对图像进行分类。 开创性的工作表明,查询数千个属性可以实现与图像特征相媲美的性能。 然而,我们对 8 个数据集的进一步研究表明,LLM 生成的大量属性的表现几乎与随机词相同。 这一令人惊讶的发现表明这些属性中可能存在显着的噪音。 我们假设存在可以在更小的尺寸下保持分类性能的属性子集,并提出一种新颖的学习搜索方法来发现这些简洁的属性集。 因此,在 CUB 数据集上,我们的方法实现了接近 LLM 生成的大量属性(例如 CUB 的 10k 个属性)的性能,但总共仅使用 32 个属性来区分 200 种鸟类。 此外,我们的新范式展示了一些额外的好处:人类更高的可解释性和交互性,以及总结识别任务知识的能力。
1.4 Segmentation Framework for Heat Loss Identification in Thermal Images: Empowering Scottish Retrofitting and Thermographic Survey Companies
热成像中热损失识别的分段框架:授权苏格兰翻新和热像测量公司
https://arxiv.org/abs/2308.03631
苏格兰的改造和热成像测量 (TS) 公司与社会住房提供商合作,解决燃料匮乏问题。 他们采用基于地面红外 (IR) 摄像头的 TS (GIRTS) 来收集热图像,以识别因绝缘不良而导致的热损失源。 然而,这种识别过程是劳动密集型且耗时的,需要大量的数据处理。 为了实现自动化,需要采用人工智能驱动的方法。 因此,本研究提出了一种基于深度学习(DL)的分割框架,使用掩模区域提议卷积神经网络(Mask RCNN)来验证其对这些热图像的适用性。 该框架的目标是自动识别由薄弱的隔热层引起的作物热损失源,同时消除这些图像中存在的障碍物。 通过这样做,它可以最大程度地减少劳动密集型任务,并提供自动化、一致且可靠的解决方案。 为了验证所提出的框架,我们与工业 TS 合作伙伴合作收集了大约 2500 张热图像。 然后,在专家的帮助下精心挑选了1800张代表性图像并进行注释以突出目标对象(TO)以形成最终的数据集。 随后,采用迁移学习策略来训练数据集,逐步增加训练数据量并微调预训练的基线 Mask RCNN。 结果,最终的微调模型在 TO 分割方面取得了 77.2% 的平均精度 (mAP) 分数,证明了所提出的框架在准确量化苏格兰家庭能源损失方面的巨大潜力。
1.5 M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition
M$^3$NET:用于Few-Shot细粒度动作识别的多视点编码、匹配和融合
https://arxiv.org/abs/2308.03063
由于细粒度视频理解所需的手动注释数据的稀缺,少镜头细粒度(FS-FG)动作识别受到了极大的关注,其目的是对只有少数标记的新颖的细粒度动作类别进行分类 实例。 尽管 FS 粗粒度动作识别取得了进展,但当前的方法在处理细粒度动作类别时遇到了两个挑战:无法捕获微妙的动作细节,以及从表现出高类内方差的有限数据中学习的不足。 类间相似度。 为了解决这些限制,我们提出了 M3Net,一种基于匹配的 FS-FG 动作识别框架,它结合了 \textit{多视图编码}、\textit{多视图匹配} 和 \textit{多视图融合} 促进跨多个视点的嵌入编码、相似性匹配和决策。 \textit{多视图编码}从帧内、视频内和剧集内的角度捕获丰富的上下文细节,为细粒度数据生成定制的高阶嵌入。 \textit{多视图匹配}集成了各种匹配功能,可以在有限的样本内进行灵活的关系建模,通过利用特定于实例、特定于类别和特定于任务的视角来处理多尺度时空变化。 \textit{多视图融合}由上述视图的匹配预测融合和匹配损失融合组成,前者促进相互互补,后者通过采用多任务协作学习来增强嵌入泛化性。 在三个具有挑战性的基准上的可解释的可视化和实验结果证明了 M3Net 在捕获细粒度动作细节和实现 FS-FG 动作识别的最先进性能方面的优越性。
1.6 Novel Class Discovery for Long-tailed Recognition
一种新的长尾识别类发现算法
https://arxiv.org/abs/2308.02989
虽然新的类发现取得了巨大的成功,但现有的方法通常在平衡数据集上评估其算法。 然而,在现实世界的视觉识别任务中,数据集的类分布通常是长尾的,这使得应用这些方法具有挑战性。 在本文中,我们为新类发现提出了一个更现实的设置,其中新类和已知类的分布是长尾的。 这个新问题的挑战是在不平衡类别场景下借助已知类别发现新类别。 为了有效地发现不平衡的新类,我们提出了一种基于等角原型表示的自适应自标记策略。 我们的方法通过解决宽松的最优传输问题,为新类推断出更好的伪标签,并有效地减轻了学习已知类和新类时的偏差。 CIFAR100、ImageNet100 以及具有挑战性的 Herbarium19 和大规模 iNaturalist18 数据集上的广泛结果证明了我们方法的优越性。
1.7 A Comprehensive Analysis of Real-World Image Captioning and Scene Identification
真实世界图像字幕和场景识别的综合分析
https://arxiv.org/abs/2308.02833
图像字幕是一项计算机视觉任务,涉及为图像生成自然语言描述。 这种方法在各个领域都有广泛的应用,包括图像检索系统、医学和各个行业。 然而,虽然在图像字幕方面已经有了重要的研究,但大多数研究都集中在高质量图像或受控环境上,而没有探索现实世界图像字幕的挑战。 现实世界的图像字幕涉及复杂且动态的环境,具有众多关注点,图像质量通常很差,这使得它成为一项具有挑战性的任务,即使对于人类来说也是如此。 本文使用新创建的真实世界数据集评估了建立在不同编码机制、语言解码器和训练程序之上的各种模型的性能,该数据集由超过 65 个不同场景类别的 800 多张图像组成,使用 MIT 室内场景构建 数据集。 该数据集使用 IC3 方法进行字幕描述,该方法通过从图像的独特视点总结标准图像字幕模型所涵盖的细节来生成更具描述性的字幕。
1.8 MiAMix: Enhancing Image Classification through a Multi-stage Augmented Mixied Sample Data Augmentation Method
MiAMIX:通过多阶段扩展混合样本数据增强方法增强图像分类
https://arxiv.org/abs/2308.02804
尽管深度学习领域取得了巨大进展,但过度拟合仍然是一个关键挑战,而数据增强由于其能够增强各种计算机视觉任务中的模型泛化能力,已成为一种特别有前途的方法。 尽管已经提出了各种策略,但混合样本数据增强(MSDA)在增强模型性能和泛化方面表现出了巨大的潜力。 我们引入了一种称为 MiAMix 的新颖混音方法,它代表多级增强混音。 MiAMix将图像增强集成到混合框架中,同时利用多种多样化的混合方法,并通过随机选择混合掩模增强方法来改进混合方法。 最近的方法利用了显着性信息,MiAMix 的设计也考虑了计算效率,减少了额外的开销,并可以轻松集成到现有的训练管道中。 我们使用四个图像基准对 MiaMix 进行全面评估,并将其与当前最先进的混合样本数据增强技术进行比较,以证明 MIAMix 在无需大量计算开销的情况下提高了性能。