【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（8 月 8 日论文合集）-阿里云开发者社区

【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（8 月 8 日论文合集）

2023-08-15 60

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（8 月 8 日论文合集）

一、分类|识别相关(4篇)

1.1 Universal Defensive Underpainting Patch: Making Your Text Invisible to Optical Character Recognition

通用防御性底色补丁：使您的文本对光学字符识别不可见
https://arxiv.org/abs/2308.02369
光学字符识别（OCR）可以从扫描或数字化的文本图像中自动提取文本，但它也很容易从这些图像中盗版有价值或敏感的文本。通过扭曲文本图像中的字符来防止OCR盗版的先前方法在现实世界场景中是不切实际的，因为盗版者可以捕获文本图像的任意部分，使得防御无效。在这项工作中，我们提出了一种新的和有效的防御机制，称为通用防御性底色补丁（UDUP），修改底色的文字图像，而不是字符。UDUP是通过迭代优化过程创建的，以制作一个小的，固定大小的防御补丁，可以为任何大小的文本图像生成非重叠的底色。实验结果表明，在任意截图范围和复杂图像背景下，UDUP都能有效地抵御未经授权的OCR。它对字符的内容、大小、颜色和语言都是不可知的，并且对典型的图像操作（如缩放和压缩）是鲁棒的。此外，通过避免几种现成的OCR来证明UDUP的可转移性。该代码可在https://github.com/QRICKDD/UDUP获得。

1.2 RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph Classification

RAHNet：用于长尾图分类的检索增强混合网络
https://arxiv.org/abs/2308.02335
图分类在许多现实世界的多媒体应用中是一项至关重要的任务，其中图可以表示各种多媒体数据类型，例如图像，视频和社交网络。以前的努力已经在类分布平衡的平衡情况下应用了图神经网络（GNN）。然而，现实世界的数据通常表现出长尾类分布，导致在使用GNN时偏向头部类，并且在尾部类上的泛化能力有限。最近的方法主要集中在模型训练期间重新平衡不同的类，这无法显式地引入新知识并牺牲头类的性能。为了解决这些缺点，我们提出了一种新的框架，称为检索增强混合网络（RAHNet），以解耦的方式联合学习一个强大的特征提取器和无偏分类器。在特征提取器训练阶段，我们开发了一个图检索模块，以搜索相关的图，直接丰富类内多样性的尾部类。此外，我们创新性地优化了以类别为中心的监督对比损失，以获得更适合长尾场景的判别表示。在分类器微调阶段，我们使用两种权重正则化技术来平衡分类器权重，即，最大范数和权重衰减。各种流行的基准实验验证了所提出的方法对国家的最先进的方法的优越性。

1.3 M2Former: Multi-Scale Patch Selection for Fine-Grained Visual Recognition

M2Former：面向细粒度视觉识别的多尺度块选择
https://arxiv.org/abs/2308.02161
最近，Vision Transformers（ViTs）已被积极地应用于细粒度视觉识别（FGVR）。ViT可以有效地通过一个固有的自我注意力机制，分块的对象区域之间的相互依赖关系建模。此外，补丁选择与ViT一起使用，以去除冗余补丁信息并突出显示最具鉴别力的对象补丁。然而，现有的基于ViT的FGVR模型仅限于单尺度处理，其固定的感受野阻碍了代表性的丰富性，并加剧了尺度变化的脆弱性。因此，我们提出了多尺度补丁选择（MSPS），以提高现有的基于ViT的模型的多尺度能力。具体地，MSPS在多尺度Vision Transformer（MS-ViT）的不同阶段选择不同尺度的显著块。此外，我们引入类令牌传输（CTT）和多尺度交叉注意（MSCA）模型的跨尺度之间的相互作用，选择多尺度补丁，并充分反映在模型决策。与以前的单尺度补丁选择（SSPS）相比，我们建议的MSPS鼓励更丰富的对象表示的基础上的功能层次结构，并不断提高性能，从小尺寸到大尺寸的对象。因此，我们提出了M2 Former，它在几个广泛使用的FGVR基准测试中优于基于CNN/ViT的模型。

1.4 Emotion recognition based on multi-modal electrophysiology multi-head attention Contrastive Learning

基于多模式电生理多头注意对比学习的情绪识别
https://arxiv.org/abs/2308.01919
情感识别是人工智能的一个重要研究方向，帮助机器理解和适应人类的情感状态。多模态电生理（ME）信号，诸如EEG、GSR、呼吸（Resp）和温度（Temp），是用于反映人类情绪变化的有效生物标志物。然而，使用电生理信号进行情绪识别面临着数据稀缺、标签不一致和跨个体泛化困难等挑战。为了解决这些问题，我们提出了ME-MHACL，一种基于自监督对比学习的多模态情感识别方法，可以从未标记的电生理信号中学习有意义的特征表示，并使用多头注意机制进行特征融合，以提高识别性能。我们的方法包括两个阶段：首先，我们使用减数分裂方法对未标记的电生理信号进行分组和增强，并设计了一个自监督的对比学习任务;其次，我们将训练好的特征提取器应用于标记的电生理信号，并使用多头注意机制进行特征融合。我们在两个公开数据集DEAP和MAHNOB-HCI上进行了实验，我们的方法在情感识别任务中优于现有的基准方法，并且具有良好的跨个体泛化能力。

【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（8 月 8 日论文合集）

一、分类|识别相关(4篇)

1.1 Universal Defensive Underpainting Patch: Making Your Text Invisible to Optical Character Recognition

1.2 RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph Classification

1.3 M2Former: Multi-Scale Patch Selection for Fine-Grained Visual Recognition

1.4 Emotion recognition based on multi-modal electrophysiology multi-head attention Contrastive Learning

热门文章

最新文章

相关课程

相关电子书

相关实验场景