【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 11 日论文合集)

简介: 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 11 日论文合集)

一、分类|识别相关(8篇)

1.1 Hard No-Box Adversarial Attack on Skeleton-Based Human Action Recognition with Skeleton-Motion-Informed Gradient

基于骨架运动信息梯度的基于骨架的人体动作识别的硬非盒对抗攻击
https://arxiv.org/abs/2308.05681
最近,基于骨架的人体活动识别的方法已被证明是脆弱的对抗攻击。然而,这些攻击方法需要受害者的完全知识(即白盒攻击)、对训练数据的访问(即基于传输的攻击)或频繁的模型查询(即黑盒攻击)。它们的所有要求都是高度限制性的,这就提出了脆弱性有多大危害的问题。在本文中,我们表明,漏洞确实存在。为此,我们考虑一个新的攻击任务:攻击者无法访问受害者模型或训练数据或标签,其中我们创造了术语硬无盒攻击。具体来说,我们首先学习一个运动流形,在那里我们定义了一个对抗损失来计算一个新的梯度的攻击,命名为骨架运动通知(SMI)梯度。我们的梯度包含的信息的运动动态,这是不同于现有的基于梯度的攻击方法,计算损失梯度假设数据中的每个维度是独立的。SMI梯度可以增强许多基于梯度的攻击方法,导致一系列新的无盒攻击方法。广泛的评估和比较表明,我们的方法对现有的分类器构成了真正的威胁。他们还表明,SMI梯度改善了无盒和基于转移的黑盒设置中的对抗样本的可转移性和不可察觉性。

1.2 Critical Points ++: An Agile Point Cloud Importance Measure for Robust Classification, Adversarial Defense and Explainable AI

关键点++:一种用于健壮分类、对抗防御和可解释人工智能的敏捷点云重要性度量
https://arxiv.org/abs/2308.05525
准确和快速地处理分布外(OOD)样品的能力在现实世界中对安全要求很高的应用中至关重要。在这项工作中,我们首先研究三维点云和OOD样本的关键点之间的相互作用。我们的发现是,常见的腐败和异常值往往被解释为临界点。我们将临界点的概念推广为重要性措施。我们表明,训练分类网络的基础上只对不太重要的点显着提高了鲁棒性,在清洁集上的轻微性能损失的代价。我们观察到,归一化熵是高度信息腐败分析。提出了一种基于归一化熵的自适应阈值来选择非临界点集。我们提出的重要性措施是非常快的计算。我们表明,它可以用于各种应用,如可解释人工智能(XAI),离群点去除,不确定性估计,鲁棒分类和对抗防御。我们在后两个任务上达到SOTA结果。

1.3 Benchmarking Algorithmic Bias in Face Recognition: An Experimental Approach Using Synthetic Faces and Human Evaluation

人脸识别中的基准算法偏差:一种使用合成人脸和人类评估的实验方法
https://arxiv.org/abs/2308.05441
我们提出了一个实验方法测量偏见的人脸识别系统。测量偏差的现有方法依赖于在野外收集并注释为受保护的基准数据集(例如,种族、性别)和不受保护的(例如,姿势、照明)属性。这样的观测数据集仅允许相关性结论,例如,“算法A在数据集X中的女性和男性面孔上的准确性不同。“.相比之下,实验方法单独操纵属性,从而允许因果结论,例如,“算法A的准确性受性别和肤色的影响。“ 我们的方法是基于生成合成的脸使用神经面部生成器,其中每个感兴趣的属性被独立修改,同时保持所有其他属性不变。人类观察者至关重要地提供了合成图像对之间的感知身份相似性的地面真相。我们验证了我们的方法定量评估的种族和性别偏见的三个研究级人脸识别模型。我们的合成管道揭示,对于这些算法,准确性较低的黑人和东亚人口亚群。我们的方法还可以量化属性的感知变化如何影响这些模型报告的人脸身份距离。我们的大型合成数据集由48,000个合成人脸图像对(10,200个独特的合成人脸)和555,000个人类注释(个人属性和成对身份比较)组成,可供这一重要领域的研究人员使用。

1.4 Ensemble Modeling for Multimodal Visual Action Recognition

多通道视觉动作识别的集成建模
https://arxiv.org/abs/2308.05430
在这项工作中,我们提出了一个集成建模方法多模态动作识别。我们使用专为处理MECCANO [21]数据集的长尾分布而定制的病灶丢失变体独立训练个体模态模型。基于焦损失的基本原理,它捕获的尾巴(稀缺)类和它们的预测困难之间的关系,我们提出了一个指数衰减的变化,我们目前的任务焦损失。它最初强调从难以分类的示例中学习,并逐渐适应数据集中的整个示例范围。这个退火过程鼓励模型在关注稀疏的硬样本集与利用较简单样本提供的信息之间取得平衡。此外,我们选择后期融合策略,以将来自RGB和深度模态的所得概率分布组合起来用于最终动作预测。MECCANO数据集上的实验评估证明了我们的方法的有效性。

1.5 A Comparative Assessment of Multi-view fusion learning for Crop Classification

多视点融合学习在作物分类中的比较评价
https://arxiv.org/abs/2308.05407
随着遥感(RS)数据源的数量和多样性的迅速增加,对多视角学习建模的需求越来越强烈。当考虑到RS数据的分辨率、幅度和噪声的差异时,这是一项复杂的任务。用于合并多个RS源的典型方法是输入级融合,但是其他更高级的融合策略可能优于这种传统方法。这项工作评估了CropHarvest数据集中作物分类的不同融合策略。在这项工作中提出的融合方法优于模型的基础上,个人的意见和以前的融合方法。我们没有找到一个单一的融合方法,始终优于所有其他方法。相反,我们提出了三个不同的数据集的多视图融合方法的比较,并表明,根据测试区域,不同的方法获得最佳的性能。尽管如此,我们提出了一个初步的标准融合方法的选择。

1.6 Learning Gabor Texture Features for Fine-Grained Recognition

用于细粒度识别的Gabor纹理特征学习
https://arxiv.org/abs/2308.05396
提取和使用类别区分特征是细粒度识别的关键。现有的工作已经证明了应用深度CNN来利用区分相似类的特征的可能性。然而,CNN存在频率偏差和丢失详细局部信息等问题,这限制了识别细粒度类别的性能。为了解决这一挑战,我们提出了一种新的纹理分支作为CNN分支的补充,用于特征提取。我们创新地利用Gabor滤波器作为一个强大的提取器,利用纹理特征,Gabor滤波器的能力,有效地捕捉多频特征和详细的本地信息的动机。我们实现了几个设计,以提高Gabor滤波器的有效性,包括施加约束的参数值和开发的学习方法来确定最佳参数。此外,我们引入了一个统计特征提取器,利用丰富的统计信息从Gabor滤波器捕获的信号,和门选择机制,使有效的计算,只考虑合格的区域作为输入纹理提取。通过对基于Gabor滤波器的纹理分支和基于CNN的语义分支的特征融合,实现了综合信息的提取。我们证明了我们的方法在多个数据集上的有效性,包括CUB-200-2011,NA-bird,斯坦福狗,和GTOS-mobile。使用我们的方法实现了最先进的性能。

1.7 JutePestDetect: An Intelligent Approach for Jute Pest Identification Using Fine-Tuned Transfer Learning

JutePestDetect:一种基于精细转移学习的黄麻害虫智能识别方法
https://arxiv.org/abs/2308.05179
在某些亚洲国家,黄麻是农业部门收入和国内生产总值的主要来源之一。像许多其他作物一样,黄麻容易受到害虫的侵扰,在孟加拉国,印度,缅甸和中国等国家,它的识别通常是视觉上的。此外,这种方法耗时、具有挑战性,并且有些不精确,这会带来很大的财务风险。为了解决这个问题,该研究提出了一个高性能和弹性迁移学习(TL)的JutePestDetect模型,以识别黄麻害虫在早期阶段。首先,我们准备了黄麻害虫数据集,包含17个类,每个害虫类约380张照片,经过手动和自动预处理和清洗,如背景去除和调整大小后进行评估。随后,五个突出的预训练模型-DenseNet 201,InceptionV 3,MobileNetV 2,VGG 19和ResNet 50从先前的研究中选择来设计JutePestDetect模型。通过用全局平均池化层替换分类层并结合用于正则化的丢弃层来修改每个模型。为了评估模型的性能,各种指标,如精度,召回率,F1评分,ROC曲线,混淆矩阵。这些分析为确定模型的功效提供了额外的见解。其中,基于定制的正则化DenseNet 201的JutePestDetect模型表现优于其他模型,达到了令人印象深刻的99%的准确率。因此,我们提出的方法和策略提供了一个增强的方法来识别有害生物的情况下,黄麻,这可以显着造福世界各地的农民。

1.8 Deep Learning for Morphological Identification of Extended Radio Galaxies using Weak Labels

基于弱标记的深度学习用于扩展射电星系的形态识别
https://arxiv.org/abs/2308.05166
目前的工作讨论了弱监督深度学习算法的使用,该算法降低了为具有多个组件的复杂射电星系标记像素级掩模的成本。该算法在射电星系的弱类级别标签上进行训练,以获得类激活图(CAM)。CAM进一步细化使用像素间关系网络(IRNet),以获得实例分割掩模在射电星系和它们的红外主机的位置。我们使用的数据从澳大利亚平方公里阵列探路者(ASKAP)望远镜,特别是宇宙的进化地图(EMU)试点调查,其中涵盖了270平方度的天空面积的RMS灵敏度为25-35 $\mu$Jy/梁。我们证明了弱监督深度学习算法可以在预测像素级信息方面实现高精度,包括用于封装所有星系组件的扩展无线电发射的掩模和红外宿主星系的位置。我们评估我们的方法的性能,使用平均精度(mAP)在一个标准的交集超过工会(IoU)阈值为0.5的多个类。我们表明,该模型实现了一个mAP$_{50}$的67.5%和76.8%的无线电屏蔽和红外主机的位置,分别。网络体系结构可在以下链接中找到:https://github.com/Nikhel1/Gal-CAM

相关文章
|
6月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
136 0
|
2月前
|
机器学习/深度学习 编解码 自动驾驶
计算机视觉之图像到图像的翻译
图像到图像的翻译(Image-to-Image Translation)是指将一种图像从一种表示转换为另一种表示的过程。该任务的目标是在保证图像语义信息的前提下,将图像风格、颜色或其他视觉特征进行转换。该技术在计算机视觉领域具有广泛应用,例如图像风格迁移、图像修复、图像增强、超分辨率、语义分割等。
43 4
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
6月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
141 0
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
136 8
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
62 1
|
6月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
236 3
|
4月前
|
机器学习/深度学习 XML 计算机视觉
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
|
5月前
|
算法 计算机视觉 Python
openCV 3计算机视觉 Python语言实现 笔记 第三章 使用OpenCV 3处理图像
openCV 3计算机视觉 Python语言实现 笔记 第三章 使用OpenCV 3处理图像
|
5月前
|
机器学习/深度学习 人工智能 监控
一文读懂计算机视觉4大任务:分类任务、检测任务、目标分割任务、关键点检测任务
一文读懂计算机视觉4大任务:分类任务、检测任务、目标分割任务、关键点检测任务

热门文章

最新文章