【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)

简介: 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)

一、分类|识别相关(16篇)(上)

1.1 Scaling may be all you need for achieving human-level object recognition capacity with human-like visual experience

要获得人类级别的对象识别能力,并获得与人类相似的视觉体验,缩放可能是所需的全部功能
https://arxiv.org/abs/2308.03712
本文询问当前的自监督学习方法如果充分扩展,是否能够达到人类水平的视觉对象识别能力,并具有与人类学习相同类型和数量的视觉经验。 以前关于这个问题的工作只考虑了数据大小的缩放。 在这里,我们考虑数据大小、模型大小和图像分辨率的同时缩放。 我们使用尺寸高达 633M 参数 (ViT-H/14) 的视觉转换器进行缩放实验,并使用长达 5K 小时的类人视频数据(长、连续、大部分以自我为中心的视频)进行训练,图像分辨率高达 476x476 像素 。 掩码自动编码器(MAE)作为一种自监督学习算法的效率使得在不夸张的学术预算下运行这个扩展实验成为可能。 我们发现,如果同时扩大这些因素,在模型大小、数据大小和图像大小的亚人类尺度上达到人类水平的物体识别能力是可行的。 举一个具体的例子,我们估计用 20K 小时(2.3 年)空间分辨率为 952x952 像素的类人视频数据训练的 2.5B 参数 ViT 模型应该能够在 ImageNet 上达到大致人类水平的精度。 因此,通过类人感知体验(在数量和类型上与人类相似)的基本感知能力,可以通过极其通用的学习算法和架构来实现人类水平的能力,并且没有任何实质性的归纳偏差。

1.2 Video-based Person Re-identification with Long Short-Term Representation Learning

基于长时间短期表征学习的视频人物再识别
https://arxiv.org/abs/2308.03703
基于视频的人员重新识别(V-ReID)旨在从非重叠摄像机捕获的原始视频中检索特定人员。 作为一项基本任务,它传播了许多多媒体和计算机视觉应用。 然而,由于人和场景的变化,要获得高性能仍然有许多障碍需要克服。 在这项工作中,我们注意到人的长期和短期信息对于稳健的视频表示都很重要。 因此,我们提出了一种名为长短期表示学习(LSTRL)的新型深度学习框架,以实现有效的 V-ReID。 更具体地说,为了提取长期表示,我们提出了一种多粒度外观提取器(MAE),其中跨多个帧有效捕获四种粒度外观。 同时,为了提取短期表示,我们提出了一种双向运动估计器(BME),其中从连续帧中有效地提取相互运动信息。 MAE 和 BME 是即插即用的,可以轻松插入现有网络以进行高效的特征学习。 因此,它们显着提高了 V-ReID 的特征表示能力。 对三个广泛使用的基准进行的广泛实验表明,我们提出的方法可以提供比大多数最先进的方法更好的性能。

1.3 Learning Concise and Descriptive Attributes for Visual Recognition

学习用于视觉识别的简明和描述性属性
https://arxiv.org/abs/2308.03685
基础模型的最新进展为可解释的视觉识别提供了新的机会——人们可以首先查询大型语言模型(LLM)以获得一组描述每个类别的属性,然后应用视觉语言模型通过这些属性对图像进行分类。 开创性的工作表明,查询数千个属性可以实现与图像特征相媲美的性能。 然而,我们对 8 个数据集的进一步研究表明,LLM 生成的大量属性的表现几乎与随机词相同。 这一令人惊讶的发现表明这些属性中可能存在显着的噪音。 我们假设存在可以在更小的尺寸下保持分类性能的属性子集,并提出一种新颖的学习搜索方法来发现这些简洁的属性集。 因此,在 CUB 数据集上,我们的方法实现了接近 LLM 生成的大量属性(例如 CUB 的 10k 个属性)的性能,但总共仅使用 32 个属性来区分 200 种鸟类。 此外,我们的新范式展示了一些额外的好处:人类更高的可解释性和交互性,以及总结识别任务知识的能力。

1.4 Segmentation Framework for Heat Loss Identification in Thermal Images: Empowering Scottish Retrofitting and Thermographic Survey Companies

热成像中热损失识别的分段框架:授权苏格兰翻新和热像测量公司
https://arxiv.org/abs/2308.03631
苏格兰的改造和热成像测量 (TS) 公司与社会住房提供商合作,解决燃料匮乏问题。 他们采用基于地面红外 (IR) 摄像头的 TS (GIRTS) 来收集热图像,以识别因绝缘不良而导致的热损失源。 然而,这种识别过程是劳动密集型且耗时的,需要大量的数据处理。 为了实现自动化,需要采用人工智能驱动的方法。 因此,本研究提出了一种基于深度学习(DL)的分割框架,使用掩模区域提议卷积神经网络(Mask RCNN)来验证其对这些热图像的适用性。 该框架的目标是自动识别由薄弱的隔热层引起的作物热损失源,同时消除这些图像中存在的障碍物。 通过这样做,它可以最大程度地减少劳动密集型任务,并提供自动化、一致且可靠的解决方案。 为了验证所提出的框架,我们与工业 TS 合作伙伴合作收集了大约 2500 张热图像。 然后,在专家的帮助下精心挑选了1800张代表性图像并进行注释以突出目标对象(TO)以形成最终的数据集。 随后,采用迁移学习策略来训练数据集,逐步增加训练数据量并微调预训练的基线 Mask RCNN。 结果,最终的微调模型在 TO 分割方面取得了 77.2% 的平均精度 (mAP) 分数,证明了所提出的框架在准确量化苏格兰家庭能源损失方面的巨大潜力。

1.5 M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition

M$^3$NET:用于Few-Shot细粒度动作识别的多视点编码、匹配和融合
https://arxiv.org/abs/2308.03063
由于细粒度视频理解所需的手动注释数据的稀缺,少镜头细粒度(FS-FG)动作识别受到了极大的关注,其目的是对只有少数标记的新颖的细粒度动作类别进行分类 实例。 尽管 FS 粗粒度动作识别取得了进展,但当前的方法在处理细粒度动作类别时遇到了两个挑战:无法捕获微妙的动作细节,以及从表现出高类内方差的有限数据中学习的不足。 类间相似度。 为了解决这些限制,我们提出了 M3Net,一种基于匹配的 FS-FG 动作识别框架,它结合了 \textit{多视图编码}、\textit{多视图匹配} 和 \textit{多视图融合} 促进跨多个视点的嵌入编码、相似性匹配和决策。 \textit{多视图编码}从帧内、视频内和剧集内的角度捕获丰富的上下文细节,为细粒度数据生成定制的高阶嵌入。 \textit{多视图匹配}集成了各种匹配功能,可以在有限的样本内进行灵活的关系建模,通过利用特定于实例、特定于类别和特定于任务的视角来处理多尺度时空变化。 \textit{多视图融合}由上述视图的匹配预测融合和匹配损失融合组成,前者促进相互互补,后者通过采用多任务协作学习来增强嵌入泛化性。 在三个具有挑战性的基准上的可解释的可视化和实验结果证明了 M3Net 在捕获细粒度动作细节和实现 FS-FG 动作识别的最先进性能方面的优越性。

1.6 Novel Class Discovery for Long-tailed Recognition

一种新的长尾识别类发现算法
https://arxiv.org/abs/2308.02989
虽然新的类发现取得了巨大的成功,但现有的方法通常在平衡数据集上评估其算法。 然而,在现实世界的视觉识别任务中,数据集的类分布通常是长尾的,这使得应用这些方法具有挑战性。 在本文中,我们为新类发现提出了一个更现实的设置,其中新类和已知类的分布是长尾的。 这个新问题的挑战是在不平衡类别场景下借助已知类别发现新类别。 为了有效地发现不平衡的新类,我们提出了一种基于等角原型表示的自适应自标记策略。 我们的方法通过解决宽松的最优传输问题,为新类推断出更好的伪标签,并有效地减轻了学习已知类和新类时的偏差。 CIFAR100、ImageNet100 以及具有挑战性的 Herbarium19 和大规模 iNaturalist18 数据集上的广泛结果证明了我们方法的优越性。

1.7 A Comprehensive Analysis of Real-World Image Captioning and Scene Identification

真实世界图像字幕和场景识别的综合分析
https://arxiv.org/abs/2308.02833
图像字幕是一项计算机视觉任务,涉及为图像生成自然语言描述。 这种方法在各个领域都有广泛的应用,包括图像检索系统、医学和各个行业。 然而,虽然在图像字幕方面已经有了重要的研究,但大多数研究都集中在高质量图像或受控环境上,而没有探索现实世界图像字幕的挑战。 现实世界的图像字幕涉及复杂且动态的环境,具有众多关注点,图像质量通常很差,这使得它成为一项具有挑战性的任务,即使对于人类来说也是如此。 本文使用新创建的真实世界数据集评估了建立在不同编码机制、语言解码器和训练程序之上的各种模型的性能,该数据集由超过 65 个不同场景类别的 800 多张图像组成,使用 MIT 室内场景构建 数据集。 该数据集使用 IC3 方法进行字幕描述,该方法通过从图像的独特视点总结标准图像字幕模型所涵盖的细节来生成更具描述性的字幕。

1.8 MiAMix: Enhancing Image Classification through a Multi-stage Augmented Mixied Sample Data Augmentation Method

MiAMIX:通过多阶段扩展混合样本数据增强方法增强图像分类
https://arxiv.org/abs/2308.02804
尽管深度学习领域取得了巨大进展,但过度拟合仍然是一个关键挑战,而数据增强由于其能够增强各种计算机视觉任务中的模型泛化能力,已成为一种特别有前途的方法。 尽管已经提出了各种策略,但混合样本数据增强(MSDA)在增强模型性能和泛化方面表现出了巨大的潜力。 我们引入了一种称为 MiAMix 的新颖混音方法,它代表多级增强混音。 MiAMix将图像增强集成到混合框架中,同时利用多种多样化的混合方法,并通过随机选择混合掩模增强方法来改进混合方法。 最近的方法利用了显着性信息,MiAMix 的设计也考虑了计算效率,减少了额外的开销,并可以轻松集成到现有的训练管道中。 我们使用四个图像基准对 MiaMix 进行全面评估,并将其与当前最先进的混合样本数据增强技术进行比较,以证明 MIAMix 在无需大量计算开销的情况下提高了性能。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
194 0
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
136 2
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
157 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
7月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
163 8
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
75 1
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
291 3

热门文章

最新文章