【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(下)

简介: 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(下)

一、分类|识别相关(16篇)(下)

1.9 A Voting-Stacking Ensemble of Inception Networks for Cervical Cytology Classification

一种用于宫颈细胞学分类的初始网络投票堆叠集成
https://arxiv.org/abs/2308.02781
宫颈癌是威胁妇女健康最严重的疾病之一。 早期发现和诊断可以显着降低癌症风险,其中宫颈细胞学分类是不可或缺的。 研究人员最近设计了许多用于自动化宫颈癌诊断的网络,但这些单个模型的精度有限且体积庞大,无法满足实际应用需求。 为了解决这个问题,我们提出了一种投票堆叠集成策略,该策略采用三个初始网络作为基础学习器,并通过投票集成来集成它们的输出。 集成模型错误分类的样本生成新的训练集,在该训练集上训练线性分类模型作为元学习器并执行最终预测。 此外,还设计了多级Stacking集成框架以进一步提高性能。 该方法在 SIPakMed、Herlev 和 Mendeley 数据集上进行评估,分别达到 100%、100% 和 100% 的准确度。 实验结果优于当前最先进的(SOTA)方法,展示了其减少筛查工作量并帮助病理学家检测宫颈癌的潜力。

1.10 One-stage Low-resolution Text Recognition with High-resolution Knowledge Transfer

具有高分辨率知识传递的一阶段低分辨率文本识别
https://arxiv.org/abs/2308.02770
由于信息缺乏以及低质量图像中的噪声和模糊,从低分辨率(LR)文本图像中识别字符提出了重大挑战。 当前的低分辨率文本识别 (LTR) 解决方案通常依赖于两级管道,其中第一阶段是超分辨率,然后是第二阶段识别。 虽然这个流程简单直观,但它必须使用额外的超分辨率网络,这会导致训练和测试过程中效率低下。 而且,第二阶段的识别精度很大程度上依赖于第一阶段的重建质量,导致效率低下。 在这项工作中,我们尝试从一个新颖的角度解决这些挑战:通过从高分辨率传输知识来使识别器适应低分辨率输入。 在此思想的指导下,我们提出了一种高效有效的知识蒸馏框架来实现多层次的知识转移。 具体来说,提出视觉焦点损失来提取具有分辨率差距缩小和字符区域焦点的字符位置知识,语义对比损失用于通过对比学习来利用上下文语义知识,软逻辑损失有助于局部词级 以及来自软教师标签的全局序列级学习。 大量实验表明,所提出的一级管道在有效性和效率方面显着优于基于超分辨率的两级框架,并具有良好的鲁棒性。

1.11 Exploring Part-Informed Visual-Language Learning for Person Re-Identification

部分知情视觉语言学习在人的再识别中的探索
https://arxiv.org/abs/2308.02738
最近,视觉语言学习在增强基于视觉的行人重新识别(ReID)方面表现出了巨大的潜力。 现有的基于视觉语言学习的 ReID 方法通常侧重于全身尺度的图像文本特征对齐,而忽略了对细粒度部分特征的监督。 这种选择简化了学习过程,但不能保证零件内特征语义的一致性,从而阻碍了最终的性能。 因此,我们建议通过 ReID 任务的部分知情语言监督来增强细粒度的视觉特征。 所提出的方法名为部分知情视觉语言学习(π-VL),表明(i)人类解析引导的提示调整策略和(ii)基于分层融合的视觉语言对齐范式在确保 部分内特征语义一致性。 具体来说,我们结合身份标签和解析图来构成像素级文本提示,并将多级视觉特征与轻量级辅助头融合,以执行细粒度的图像文本对齐。 作为一种即插即用和免推理的解决方案,我们的 π-VL 在四个常用的 ReID 基准测试上比之前最先进的技术取得了显着的改进,特别是报告了 90.3% Rank-1 和 76.5% mAP 最具挑战性的 MSMT17 数据库,没有任何附加功能。

1.12 Food Classification using Joint Representation of Visual and Textual Data

使用视觉和文本数据的联合表示的食品分类
https://arxiv.org/abs/2308.02562
食品分类是医疗保健领域的一项重要任务。 在这项工作中,我们提出了一种多模态分类框架,该框架使用带有 Mish 激活函数的 EfficientNet 的修改版本进行图像分类,并使用传统的基于 BERT 变压器的网络进行文本分类。 所提出的网络和其他最先进的方法在大型开源数据集 UPMC Food-101 上进行了评估。 实验结果表明,所提出的网络优于其他方法,与第二好的方法相比,图像和文本分类的准确率分别有 11.57% 和 6.34% 的显着差异。 我们还比较了使用机器学习和基于深度学习的模型进行文本分类的准确性、精确度和召回率方面的性能。 图像和文本预测结果的比较分析证明了该方法的效率和鲁棒性。

1.13 Hierarchical Semi-Supervised Learning Framework for Surgical Gesture Segmentation and Recognition Based on Multi-Modality Data

基于多模式数据的分层半监督手术手势分割与识别框架
https://arxiv.org/abs/2308.02529
将手术轨迹分割并识别为独特的、有意义的手势是机器人辅助手术的手术流程分析中关键的初步步骤。 此步骤对于促进从自主机器人手术演示中学习、评估手术技能等是必要的。 在这项工作中,我们开发了一个使用多模态数据(即运动学和视觉数据)进行手术手势分割的分层半监督学习框架。 更具体地,手术任务最初基于使用运动学数据构建的基于距离特征的轮廓和基于方差特征的轮廓来分割。 随后,使用具有预先训练的“ResNet-18”主干的基于 Transformer 的网络从外科手术视频中提取视觉特征。 通过结合从两种模式获得的潜在分割点,我们可以确定最终的分割点。 此外,手势识别可以基于监督学习来实现。 所提出的方法已使用公开可用的 JIGSAWS 数据库中的数据进行了评估,包括缝合、穿针和打结任务。 结果显示,分割的平均 F1 分数为 0.623,识别的准确度为 0.856。

1.14 Robust vertebra identification using simultaneous node and edge predicting Graph Neural Networks

基于同时节点和边缘预测图神经网络的稳健脊椎识别
https://arxiv.org/abs/2308.02509
CT 扫描中的自动椎骨定位和识别对于众多临床应用非常重要。 在这个主题上已经取得了很多进展,但它主要针对椎骨的位置定位,而忽略了它们的方向。 此外,大多数方法在其流程中采用启发式方法,这对往往包含异常的真实临床图像非常敏感。 我们引入了一个简单的管道,该管道采用 U-Net 的标准预测,然后是单个图神经网络,以全方向关联和分类椎骨。 为了测试我们的方法,我们引入了一个新的椎骨数据集,其中还包含与椎体相关的椎弓根检测,从而创建更具挑战性的标志预测、关联和分类任务。 我们的方法能够准确关联正确的身体和椎弓根标志,忽略误报,并在简单、完全可训练的管道中对椎骨进行分类,避免特定于应用程序的启发式方法。 我们展示了我们的方法优于匈牙利匹配和隐马尔可夫模型等传统方法。 我们还在标准 VerSe 挑战体识别任务中展示了具有竞争力的表现。

1.15 A Multimodal Supervised Machine Learning Approach for Satellite-based Wildfire Identification in Europe

欧洲野火卫星识别的多模式监督机器学习方法
https://arxiv.org/abs/2308.02508
野火等灾难性自然事件的发生频率不断增加,需要开发快速、自动化的野火检测系统。 在本文中,我们提出了一种野火识别解决方案,通过利用多个信息源来提高基于卫星的自动热点检测系统的准确性。 我们将中分辨率成像光谱辐射计(MODIS)和可见红外成像辐射计套件(VIIRS)热点服务检测到的热异常与欧洲森林火灾信息系统(EFFIS)数据库交叉引用,构建大规模热点数据集 欧洲的野火相关研究。 然后,我们提出了一种新颖的多模式监督机器学习方法来消除热点检测的歧义,区分野火和其他事件。 我们的方法包括使用多模式数据源,例如 ERSI 年度土地利用土地覆盖 (LULC) 和 Copernicus Sentinel-3 数据。 实验结果证明了我们的方法在野火识别任务中的有效性。

1.16 The identification of garbage dumps in the rural areas of Cyprus through the application of deep learning to satellite imagery

将深度学习应用于卫星图像识别塞浦路斯农村地区的垃圾场
https://arxiv.org/abs/2308.02502
垃圾处理在整个发达国家都是一个具有挑战性的问题。 与其他地方一样,在塞浦路斯,非法“非法倾倒垃圾”是一个重大问题,特别是在几乎没有合法垃圾处理选择的农村地区。然而,缺乏试图衡量这一问题规模的研究,也很少有研究试图衡量这一问题的严重程度。 可用的资源来解决这个问题。一种自动识别垃圾场的方法将有助于解决这一问题,并向有关当局提供信息。这项研究的目的是调查人工智能技术与卫星图像相结合的程度 用于识别塞浦路斯农村地区的非法垃圾场。这涉及到收集新的图像数据集,这些图像可以被分类为包含或不包含垃圾。收集足够的原始数量的此类数据集既耗时又昂贵 因此,收集了相对适度的基线图像集,然后使用数据增强技术将该数据集的大小增加到可以进行有用的机器学习的程度。 根据这组图像,训练人工神经网络来识别新图像中是否存在垃圾。 使用了一种特别适合此任务的神经网络,称为“卷积神经网络”。使用独立收集的测试图像数据集来评估所得模型的功效。结果是一个可以正确识别图像的深度学习模型 大约 90% 的情况下含有垃圾。预计该模型可以构成未来系统的基础,该系统可以系统地分析塞浦路斯的整个景观,以构建该岛的全面“垃圾”地图。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
134 2
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
7月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
70 1
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3

热门文章

最新文章