【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)

本文涉及的产品
教育场景识别,教育场景识别 200次/月
企业资质识别,企业资质识别 200次/月
车辆物流识别,车辆物流识别 200次/月
简介: 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)

一、分类|识别相关(4篇)

1.1 Universal Defensive Underpainting Patch: Making Your Text Invisible to Optical Character Recognition

通用防御性底色补丁:使您的文本对光学字符识别不可见
https://arxiv.org/abs/2308.02369
光学字符识别(OCR)可以从扫描或数字化的文本图像中自动提取文本,但它也很容易从这些图像中盗版有价值或敏感的文本。通过扭曲文本图像中的字符来防止OCR盗版的先前方法在现实世界场景中是不切实际的,因为盗版者可以捕获文本图像的任意部分,使得防御无效。在这项工作中,我们提出了一种新的和有效的防御机制,称为通用防御性底色补丁(UDUP),修改底色的文字图像,而不是字符。UDUP是通过迭代优化过程创建的,以制作一个小的,固定大小的防御补丁,可以为任何大小的文本图像生成非重叠的底色。实验结果表明,在任意截图范围和复杂图像背景下,UDUP都能有效地抵御未经授权的OCR。它对字符的内容、大小、颜色和语言都是不可知的,并且对典型的图像操作(如缩放和压缩)是鲁棒的。此外,通过避免几种现成的OCR来证明UDUP的可转移性。该代码可在https://github.com/QRICKDD/UDUP获得。

1.2 RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph Classification

RAHNet:用于长尾图分类的检索增强混合网络
https://arxiv.org/abs/2308.02335
图分类在许多现实世界的多媒体应用中是一项至关重要的任务,其中图可以表示各种多媒体数据类型,例如图像,视频和社交网络。以前的努力已经在类分布平衡的平衡情况下应用了图神经网络(GNN)。然而,现实世界的数据通常表现出长尾类分布,导致在使用GNN时偏向头部类,并且在尾部类上的泛化能力有限。最近的方法主要集中在模型训练期间重新平衡不同的类,这无法显式地引入新知识并牺牲头类的性能。为了解决这些缺点,我们提出了一种新的框架,称为检索增强混合网络(RAHNet),以解耦的方式联合学习一个强大的特征提取器和无偏分类器。在特征提取器训练阶段,我们开发了一个图检索模块,以搜索相关的图,直接丰富类内多样性的尾部类。此外,我们创新性地优化了以类别为中心的监督对比损失,以获得更适合长尾场景的判别表示。在分类器微调阶段,我们使用两种权重正则化技术来平衡分类器权重,即,最大范数和权重衰减。各种流行的基准实验验证了所提出的方法对国家的最先进的方法的优越性。

1.3 M2Former: Multi-Scale Patch Selection for Fine-Grained Visual Recognition

M2Former:面向细粒度视觉识别的多尺度块选择
https://arxiv.org/abs/2308.02161
最近,Vision Transformers(ViTs)已被积极地应用于细粒度视觉识别(FGVR)。ViT可以有效地通过一个固有的自我注意力机制,分块的对象区域之间的相互依赖关系建模。此外,补丁选择与ViT一起使用,以去除冗余补丁信息并突出显示最具鉴别力的对象补丁。然而,现有的基于ViT的FGVR模型仅限于单尺度处理,其固定的感受野阻碍了代表性的丰富性,并加剧了尺度变化的脆弱性。因此,我们提出了多尺度补丁选择(MSPS),以提高现有的基于ViT的模型的多尺度能力。具体地,MSPS在多尺度Vision Transformer(MS-ViT)的不同阶段选择不同尺度的显著块。此外,我们引入类令牌传输(CTT)和多尺度交叉注意(MSCA)模型的跨尺度之间的相互作用,选择多尺度补丁,并充分反映在模型决策。与以前的单尺度补丁选择(SSPS)相比,我们建议的MSPS鼓励更丰富的对象表示的基础上的功能层次结构,并不断提高性能,从小尺寸到大尺寸的对象。因此,我们提出了M2 Former,它在几个广泛使用的FGVR基准测试中优于基于CNN/ViT的模型。

1.4 Emotion recognition based on multi-modal electrophysiology multi-head attention Contrastive Learning

基于多模式电生理多头注意对比学习的情绪识别
https://arxiv.org/abs/2308.01919
情感识别是人工智能的一个重要研究方向,帮助机器理解和适应人类的情感状态。多模态电生理(ME)信号,诸如EEG、GSR、呼吸(Resp)和温度(Temp),是用于反映人类情绪变化的有效生物标志物。然而,使用电生理信号进行情绪识别面临着数据稀缺、标签不一致和跨个体泛化困难等挑战。为了解决这些问题,我们提出了ME-MHACL,一种基于自监督对比学习的多模态情感识别方法,可以从未标记的电生理信号中学习有意义的特征表示,并使用多头注意机制进行特征融合,以提高识别性能。我们的方法包括两个阶段:首先,我们使用减数分裂方法对未标记的电生理信号进行分组和增强,并设计了一个自监督的对比学习任务;其次,我们将训练好的特征提取器应用于标记的电生理信号,并使用多头注意机制进行特征融合。我们在两个公开数据集DEAP和MAHNOB-HCI上进行了实验,我们的方法在情感识别任务中优于现有的基准方法,并且具有良好的跨个体泛化能力。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
134 2
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
7月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
70 1
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3
|
7月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
643 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
129 0

热门文章

最新文章