【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(下)

简介: 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(下)

一、检测相关(13篇)(下)

1.7 RoadScan: A Novel and Robust Transfer Learning Framework for Autonomous Pothole Detection in Roads

RoadScan:一种新颖稳健的自主道路坑洞检测迁移学习框架
https://arxiv.org/abs/2308.03467
本研究论文提出了一种使用深度学习和图像处理技术进行坑洞检测的新方法。 所提出的系统利用 VGG16 模型进行特征提取,并利用具有三元组损失的自定义 Siamese 网络(称为 RoadScan)。 该系统旨在解决道路坑洼这一严重问题,该问题给道路使用者带来重大风险。 因道路坑洼而引发的事故已发生多起。 虽然需要彻底清除坑洼,但这是一个耗时的过程。 因此,一般道路使用者应该能够在安全距离内检测坑洼以避免损坏。 现有的坑洞检测方法严重依赖于目标检测算法,由于道路和坑洞的结构和纹理的相似性,该算法往往很容易失败。 此外,这些系统利用数百万个参数,从而使得该模型难以在普通公民的小规模应用中使用。 通过分析不同的图像处理方法和各种高性能网络,所提出的模型在准确检测坑洼方面取得了显着的性能。 准确性、EER、精度、召回率和 AUROC 等评估指标验证了系统的有效性。 此外,所提出的模型通过利用更少的参数和数据进行训练,展示了计算效率和成本效益。 该研究强调了技术在交通运输领域的重要性及其提高道路安全和便利性的潜力。 该模型提出的网络具有 96.12% 的准确率、3.89% 的 EER 和 0.988 AUROC 值,与其他最先进的作品相比具有很强的竞争力。

1.8 FireFly A Synthetic Dataset for Ember Detection in Wildfire

Firefly:一种用于Wildfire烟尘检测的合成数据集
https://arxiv.org/abs/2308.03164
本文介绍了“FireFly”,这是一个使用虚幻引擎 4 (UE4) 创建的用于 ember 检测的合成数据集,旨在克服当前 ember 特定训练资源的缺乏。 为了创建数据集,我们提供了一个工具,可以自动生成具有可调整参数的合成标记数据集,从而实现各种环境条件下的数据多样性,使数据集既多样化又可根据用户需求进行定制。 我们总共生成了 19,273 个帧,用于在四种流行的目标检测模型上评估 FireFly。 为了进一步减少人为干预,我们利用经过训练的模型为现实生活中的 Ember 框架创建半自动标记流程。 此外,我们证明,与专门在小型真实数据集上训练的模型相比,真实世界野火场景中的平均精度 (mAP) 提高了 8.57%。

1.9 ECT: Fine-grained Edge Detection with Learned Cause Tokens

ECT:基于学习原因令牌的细粒度边缘检测
https://arxiv.org/abs/2308.03092
在本研究中,我们解决了具有挑战性的细粒度边缘检测任务,即分别预测由反射率、照明、法线和深度变化引起的特定边缘。 现有方法利用多尺度卷积网络,但在三个方面受到限制:(1)卷积是局部算子,而识别边缘形成的原因需要查看远处的像素。 (2)特定于边缘原因的先验被固定在预测头中。 (3)使用单独的网络进行通用和细粒度的边缘检测,并且可能会违反它们之间的约束。 为了解决这三个问题,我们提出了一个基于变压器的两级网络,顺序预测通用边缘和细粒度边缘,由于注意力机制,该网络具有全局感受野。 在原因感知解码器设计中,边缘原因的先验知识被表述为四个可学习的原因标记。 此外,为了促进通用边缘和细粒度边缘之间的一致性,利用了边缘聚合和对齐损失。 我们在公共基准 BSDS-RIND 和几个新派生的基准上评估我们的方法,并取得了新的最先进的结果。

1.10 Introducing Feature Attention Module on Convolutional Neural Network for Diabetic Retinopathy Detection

卷积神经网络在糖尿病视网膜病变检测中引入特征注意模块
https://arxiv.org/abs/2308.02985
糖尿病视网膜病变(DR)是糖尿病患者失明的主要原因。 深度学习模型在自动检测 DR 方面显示出了有希望的结果。 在目前的工作中,我们提出了一种新方法,将特征注意模块与预训练的 VGG19 卷积神经网络 (CNN) 集成,以实现更准确的 DR 检测。 在这里,预训练网络使用所提出的特征注意块进行微调。 所提出的模块旨在利用眼底图像各个区域的补充信息来增强 CNN 的判别能力。 所述特征注意模块结合了一种注意机制,该机制选择性地突出显示图像中的显着特征并将其与原始输入融合。 同时学习特征的注意力权重,然后在特征注意力块内组合注意力调制的特征,有助于网络专注于相关信息的能力,同时减少噪声或不相关特征的影响。 所提出方法的性能已在广泛使用的糖尿病视网膜病变分类数据集(例如 APTOS(亚太远程眼科学会)DR 数据集)上进行了评估。 将结果与有/无注意力模块以及其他最先进的方法进行比较。 结果证实,融合模块(特征注意力模块与 CNN 融合)的引入提高了 DR 检测的准确率,准确率达到 95.70%。

1.11 Focus the Discrepancy: Intra- and Inter-Correlation Learning for Image Anomaly Detection

聚焦差异:图像异常检测的内相关学习和互相关学习
https://arxiv.org/abs/2308.02983
人类通过两个方面识别异常:较大的补丁表示差异和较弱的补丁与正常补丁的相关性。 然而,之前的AD方法并没有充分结合这两个互补的方面来设计AD模型。 为此,我们发现 Transformer 可以理想地满足这两个方面,因为它在块级表示和块间相关性的统一建模方面具有强大的功能。 在本文中,我们提出了一种新颖的 AD 框架:FOcus-the-Discrepancy (FOD),它可以同时发现异常的补丁间、内部和内部差异。 我们方法的主要特点是我们将 Transformer 中的自注意力映射更新为内相关(I2Correlation)。 I2Correlation 包含一个双分支结构,首先明确地建立图像内和图像间相关性,然后融合两个分支的特征来突出异常模式。 为了自适应地学习内部相关性和相互相关性,我们提出基于 RBF 核的目标相关性作为自监督学习的学习目标。 此外,我们引入熵约束策略来解决优化中的模式崩溃问题,并进一步放大正常与异常的可区分性。 对三个无监督的现实世界 AD 基准的广泛实验表明了我们方法的卓越性能。

1.12 Improving Human-Object Interaction Detection via Virtual Image Learning

利用虚拟图像学习改进人-物交互检测
https://arxiv.org/abs/2308.02606
人与物体交互(HOI)检测旨在理解人与物体之间的交互,在高级语义理解任务中发挥着重要作用。 然而,大多数工作都追求设计更好的架构以更有效地学习整体特征,而忽略了交互对象对类别的长尾性质。 在本文中,我们建议通过虚拟图像学习(VIL)来减轻这种不平衡分布的影响。 首先,提出了一种新颖的标签到图像方法,即多步骤图像创建(MUSIC),以创建与真实图像具有一致分布的高质量数据集。 在此阶段,根据具有特定特征的提示生成虚拟图像,并通过多重过滤过程进行选择。 其次,我们使用虚拟和真实图像在师生框架下训练模型。 考虑到一些虚拟图像的初始标签不准确且不充分,我们设计了自适应匹配和过滤(AMF)模块来构造伪标签。 我们的方法独立于 HOI 检测器的内部结构,因此只需训练 10 个额外的 epoch,就可以将其与现成的方法相结合。 在我们的方法的帮助下,多种方法获得了显着的改进,并且在两个基准上取得了新的最先进的结果。

1.13 Early Detection and Localization of Pancreatic Cancer by Label-Free Tumor Synthesis

无标记肿瘤合成技术对胰腺癌的早期检测和定位
https://arxiv.org/abs/2308.03008
胰腺癌的早期发现和定位可以将患者的 5 年生存率从 8.5% 提高到 20%。 人工智能 (AI) 可以帮助放射科医生在早期阶段检测胰腺肿瘤。 训练人工智能模型需要大量带注释的示例,但获得早期肿瘤的 CT 扫描的可用性受到限制。 这是因为早期肿瘤可能不会引起任何症状,从而延迟检测,而且肿瘤相对较小,在 CT 扫描中人眼几乎看不见。 为了解决这个问题,我们开发了一种肿瘤合成方法,可以在健康胰腺中合成大量小胰腺肿瘤的例子,而无需手动注释。 我们的实验表明,通过对合成肿瘤进行训练的人工智能,通过灵敏度和特异性测量,胰腺肿瘤的总体检出率与真实肿瘤的检出率相当。 更重要的是,我们的方法对小肿瘤的检出率要高得多。 如果人工智能接受合成肿瘤 CT 扫描和晚期带注释大肿瘤 CT 扫描的组合训练,我们将进一步研究胰腺肿瘤的每体素分割性能。 最后,我们表明,在处理来自不同医院的 CT 扫描时,合成肿瘤提高了人工智能在肿瘤检测和定位方面的通用性。 总的来说,我们提出的肿瘤合成方法在改善胰腺癌的早期检测方面具有巨大的潜力,从而带来更好的患者预后。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 编解码 监控
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
134 2
|
7月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
3月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
3月前
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
|
7月前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)

热门文章

最新文章