【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 14 日论文合集)

简介: 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 14 日论文合集)

一、分类|识别相关(7篇)

1.1 Complex Facial Expression Recognition Using Deep Knowledge Distillation of Basic Features

基于基本特征深度知识提取的复杂人脸表情识别
https://arxiv.org/abs/2308.06197
复杂情绪识别是一项认知任务,迄今为止,它还没有达到人类认知水平或以上的其他任务的同样出色的表现。由于人脸所表达的情感的复杂性,通过面部表情进行情感识别特别困难。为了让机器在这个领域达到与人类相同的性能水平,它可能需要像人类一样实时地综合知识并理解新概念。人类能够通过从记忆中提取重要信息并丢弃其余信息,仅使用少量示例来学习新概念。类似地,连续学习方法学习新类,同时保留已知类的知识,而Few-Shot学习方法能够使用很少的训练示例学习新类。我们提出了一种新的持续学习方法的灵感来自人类的认知和学习,可以准确地识别新的复合表达类,使用很少的训练样本,通过建立和保留其知识的基本表达类。使用GradCAM可视化,我们展示了基本和复合面部表情之间的关系,我们的方法利用知识蒸馏和一种新的预测排序记忆重放。我们的方法在复杂面部表情识别的持续学习中达到了当前最先进的水平,在新类上的总体准确率为74.28%。我们还证明,使用持续学习进行复杂的面部表情识别比非持续学习方法的性能要好得多,比最先进的非持续学习方法提高了13.95%。据我们所知,我们的工作也是第一个将Few-Shot学习应用于复杂面部表情识别的工作,使用每个表情类的单个训练样本实现了100%准确率的最新技术。

1.2 Computer-Aided Cytology Diagnosis in Animals: CNN-Based Image Quality Assessment for Accurate Disease Classification

计算机辅助动物细胞学诊断:基于CNN的图像质量评估,以实现准确的疾病分类
https://arxiv.org/abs/2308.06055
本文介绍了一个计算机辅助细胞学诊断系统设计的动物,专注于图像质量评估(IQA),使用卷积神经网络(CNN)。该系统的构建模块经过定制,可无缝集成IQA,确保疾病分类的可靠性能。我们广泛研究了CNN处理各种图像变化和场景的能力,分析了对检测低质量输入数据的影响。此外,网络的能力,以区分有效的细胞样本与那些与文物进行评估。我们的研究采用了ResNet18网络架构,并探讨了输入大小和裁剪策略对模型性能的影响。该研究揭示了基于CNN的IQA在动物计算机辅助细胞学诊断中的重要性,提高了疾病分类的准确性。

1.3 Semantic-embedded Similarity Prototype for Scene Recognition

面向场景识别的语义嵌入相似度原型
https://arxiv.org/abs/2308.05896
由于场景内的复杂组成和跨场景的共存对象所引起的高类间相似性,各种研究已经探索了场景内的对象语义知识以提高场景识别。然而,由于语义分割或对象检测技术需要大量的计算能力,因此产生了一个问题,从而大大增加了网络的负担。这种限制通常使得对象辅助方法与边缘设备不兼容。相比之下,本文提出了一个基于语义的相似性原型,协助场景识别网络,以达到更高的准确性,而不增加网络参数。它很简单,可以即插即用到现有的管道中。更具体地说,引入了一种统计策略来描述场景中的语义知识作为类级语义表示。这些表示被用来探索类间的相关性,最终构建一个相似性原型。此外,我们提出了两种方法来使用相似性原型,以支持网络训练的角度梯度标签软化和批次级对比损失,分别。多个基准的综合评估表明,我们的相似性原型提高了现有网络的性能,而不增加任何计算负担。代码和统计相似性原型将很快可用。

1.4 Recognizing Handwritten Mathematical Expressions of Vertical Addition and Subtraction

垂直加减法手写数学表达式的识别
https://arxiv.org/abs/2308.05820
手写数学表达式识别(HMER)是一项具有挑战性的任务,具有许多教育应用。HMER的最新方法已经被开发用于标准水平格式的复杂数学表达式。然而,在文献中还没有探索初等数学表达式的解决方案,例如垂直加法和减法。本文提出了一种新的手写初等数学表达式数据集,该数据集由垂直格式的加法和减法表达式组成。我们还扩展了MNIST数据集,以生成具有这种结构的人工图像。此外,我们提出了一种离线HMER的解决方案,能够识别垂直加法和减法表达式。我们的分析评估了用于识别数学符号的对象检测算法YOLO v7、YOLO v8、YOLO-NAS、NanoDet和FCOS。我们还提出了一种转录方法来映射的边界框从对象检测阶段的数学表达式的LATEX标记序列。实验结果表明,该方法是有效的,取得了较高的表情识别率。代码和数据集可在https://github.com/Danielgol/HME-VAS上获得

1.5 Spintronics for image recognition : performance benchmarking via ultrafast data-driven simulations

用于图像识别的自旋电子学:通过超快数据驱动模拟进行性能基准测试
https://arxiv.org/abs/2308.05810
我们提出了一个演示的图像分类使用基于硬件的回声状态网络(ESN),依赖于自旋电子纳米结构称为基于涡旋的自旋力矩振荡器(STVOs)。我们的网络是实现使用一个单一的STVO复用的时间。为了规避与这种纳米结构系统的重复实验操作相关的挑战,我们采用了一个超快的数据驱动的模拟框架,称为数据驱动的蒂勒方程方法(DD-TEA)模拟STVO动态。我们使用这种方法来有效地开发,优化和测试基于STVO的ESN图像分类使用MNIST数据集。我们展示了我们的解决方案的多功能性,成功地应用它来解决分类的挑战与EMNIST字母和时尚MNIST数据集。通过我们的模拟,我们确定,在一个大的ESN中,使用STVO动力学作为激活函数获得的结果与使用其他传统的非线性激活函数(如reLU和sigmoid)获得的结果相当。虽然在MNIST数据集上实现了最先进的精度水平,但由于系统架构的相对简单性和任务的复杂性增加,我们的模型在EMNIST字母和时尚MNIST上的性能较低。我们预计DD-TEA框架将能够探索更专业的神经架构,最终提高分类准确性。这种方法也有希望调查和开发专用的学习规则,以进一步提高分类性能。

1.6 Fine-Grained Self-Supervised Learning with Jigsaw Puzzles for Medical Image Classification

基于拼图的细粒度自监督学习用于医学图像分类
https://arxiv.org/abs/2308.05770
由于医学图像中的微小和微妙差异,分类细粒度病变是具有挑战性的。这是因为在训练深度神经网络时,学习具有非常微小差异的细粒度病变的特征非常困难。因此,在本文中,我们介绍了细粒度自监督学习(FG-SSL)的方法分类医学图像中的细微病变。该方法通过分层分块逐步学习模型,使得细粒度拼图和正则化原始图像之间的互相关接近单位矩阵。我们还应用分层块的渐进细粒度学习,在每一步提取不同的信息,监督学习发现细微的差异。我们的方法不需要一个不对称的模型,也没有负抽样策略,是不敏感的批量大小。我们评估建议的细粒度自监督学习方法的综合实验,使用各种医学图像识别数据集。在我们的实验中,与现有的最先进的方法相比,所提出的方法在广泛使用的ISIC 2018,APTOS 2019和ISIC 2017数据集上表现良好。

1.7 Learned Point Cloud Compression for Classification

用于分类的学习点云压缩
https://arxiv.org/abs/2308.05959
深度学习越来越多地被用于执行机器视觉任务,例如对3D点云数据进行分类、对象检测和分割。然而,深度学习推理在计算上是昂贵的。因此,终端设备的有限计算能力使得编解码器必须用于通过网络传输点云数据以用于服务器侧处理。这样的编解码器必须是轻量的并且能够在不牺牲准确性的情况下实现高压缩比。基于此,我们提出了一种新的点云编解码器,是高度专业化的机器任务的分类。我们的编解码器,基于PointNet,实现了一个显着更好的速率精度权衡相比,替代方法。特别是,它在ModelNet 40数据集上实现了94%的BD比特率降低。对于低资源终端设备,我们还提出了两种轻量级的编码器配置,实现了类似的BD比特率降低93%和92%,在前1精度下降3%和5%,而仅消耗0.470和0.048编码器侧kMAC/点,分别。我们的编解码器展示了专用编解码器用于点云的机器分析的潜力,并为将来扩展到更复杂的任务和数据集提供了基础。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
152 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
126 2
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
145 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
7月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
146 8
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
66 1
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
253 3
|
7月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
613 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
124 0

热门文章

最新文章