【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)

简介: 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)

一、检测相关(7篇)

1.1 T-UNet: Triplet UNet for Change Detection in High-Resolution Remote Sensing Images

T-UNET:用于高分辨率遥感图像变化检测的三重UNET

https://arxiv.org/abs/2308.02356

遥感图像变化检测的目的是识别同一地区不同时间获取的图像之间的差异。它广泛应用于土地管理、环境监测、灾害评估等领域。目前,大多数变化检测方法是基于暹罗网络结构或早期融合结构。Siamese结构侧重于提取不同时刻的目标特征,但缺乏对变化信息的关注,从而导致虚警和漏检。早期融合(EF)结构侧重于提取不同阶段图像融合后的特征,但忽略了不同时刻目标特征对检测变化细节的重要性,使得难以准确识别变化目标的边缘。为了解决这些问题,并获得更准确的结果,我们提出了一种新的网络,三元组UNet(T-UNet),基于一个三分支编码器,这是能够同时提取的对象特征和变化之间的前和后的时间相位图像通过三重编码器的功能。为了有效地交互和融合三重编码器的三个分支提取的特征,我们提出了一个多分支的空间-频谱交叉注意模块(MBSSCA)。在解码阶段,引入通道注意机制(CAM)和空间注意机制(SAM),充分挖掘和整合浅层的细节纹理信息和深层的语义定位信息。

1.2 Deep Semantic Model Fusion for Ancient Agricultural Terrace Detection

用于古农业梯田检测的深层语义模型融合

https://arxiv.org/abs/2308.02225

在沙漠地区发现古代农业梯田对于监测地球表面的长期气候变化具有重要意义。然而,传统的地面勘测既昂贵又规模有限。随着航空和卫星数据的可访问性越来越高,机器学习技术在考古景观的自动检测和识别方面具有很大的潜力。本文提出了一种用于古农业梯田检测的深度语义模型融合方法。输入数据包括航空图像和激光雷达生成的内盖夫沙漠地形特征。两个深度语义分割模型,即DeepLabv3+和UNet,具有EfficientNet主干,被训练和融合,以提供古代梯田和墙壁的分割图。该方法在国际人工智能考古挑战赛中获得了一等奖。代码可在https://github.com/wangyi111/international-archaeology-ai-challenge获取。

1.3 Balanced Classification: A Unified Framework for Long-Tailed Object Detection

平衡分类:一种长尾目标检测的统一框架

https://arxiv.org/abs/2308.02213

传统的检测器在处理长尾数据时,由于对大多数头部类别的分类偏差,性能下降。在本文中,我们认为,学习偏见源于两个因素:1)由前景类别的不平衡分布引起的不平等竞争,以及2)尾部类别中缺乏样本多样性。为了解决这些问题,我们引入了一个统一的框架,称为平衡分类(BACL),它能够自适应纠正的不平等的类别分布和动态强化样本多样性在同步的方式。具体而言,一种新的前景分类平衡损失(FCBL)的开发,以改善主导的头部类别和转移注意力难以区分的类别引入成对的类感知边际和自动调整的权重项,分别。这种损失防止了在不平等竞争的背景下对尾部类别的过度抑制。此外,我们提出了一个动态的特征超分辨率模块(FHM),它通过合成超分辨率样本来引入额外的数据方差,从而增强了特征空间中尾部类别的表示。在这种分而治之的方法中,BACL通过解耦的训练管道在具有挑战性的LVIS基准上设置了一个新的最先进的技术,在整体和尾部类别上超过了具有ResNet-50-FPN的vanilla Faster R-CNN 5.8% AP和16.1% AP。大量的实验表明,BACL在具有不同骨干和架构的各种数据集上始终实现性能改进。代码和型号可在https://github.com/Tianhao-Qi/BACL获得。

1.4 Synthetic outlier generation for anomaly detection in autonomous driving

用于自动驾驶异常检测的合成离群点生成
https://arxiv.org/abs/2308.02184
异常检测或离群值检测是各种领域中的关键任务,用于识别显著偏离已建立模式或大部分数据的实例。在自动驾驶的背景下,识别异常对于防止安全关键事件尤为重要,因为深度学习模型通常会对异常或离群样本表现出过度自信。在这项研究中,我们探讨了不同的策略训练图像语义分割模型与异常检测模块。通过对最先进的DenseHybrid模型的训练阶段进行修改,我们在异常检测方面实现了显着的性能改进。此外,我们提出了一个简化的检测器,实现了与我们的修改后的DenseHybrid方法相当的结果,同时也超过了原来的DenseHybrid模型的性能。这些研究结果表明,我们提出的策略,在自动驾驶的背景下,提高异常检测的有效性。

1.5 Attention-Driven Lightweight Model for Pigmented Skin Lesion Detection

注意力驱动的轻量级皮肤色素性病变检测模型
https://arxiv.org/abs/2308.02119
这项研究提出了一个轻量级的管道皮肤病变检测,解决了不平衡的类分布和微妙的或非典型的一些病变的外观所带来的挑战。该流水线是围绕一个轻量级模型构建的,该模型利用重影特征和DFC注意机制来降低计算复杂度,同时保持高性能。该模型在HAM 10000数据集上进行训练,该数据集包括各种类型的皮肤病变。为了解决数据集中的类别不平衡,使用了合成少数过采样技术和各种图像增强技术。该模型还采用了基于知识的损失加权技术,该技术在类级别和实例级别为损失函数分配不同的权重,帮助模型专注于少数类和具有挑战性的样本。这种技术涉及在两个级别上为损失函数分配不同的权重-类级别和实例级别。通过应用适当的损失权重,该模型更加关注少数类和挑战性样本,从而提高其正确检测和分类不同皮肤病变的能力。该模型实现了92.4%的准确度,84.2%的精确度,86.9%的召回率,85.4%的f1评分,在识别良性角化病样病变(BKL)和痣(NV)方面具有特别强的性能。尽管其优越的性能,该模型的计算成本大大低于一些模型的准确性较低,使其成为一个最佳的解决方案,为现实世界中的应用程序的准确性和效率都是必不可少的。

1.6 HOOD: Real-Time Robust Human Presence and Out-of-Distribution Detection with Low-Cost FMCW Radar

Hood:利用低成本FMCW雷达实现实时、稳健的人员存在和偏离分布检测
https://arxiv.org/abs/2308.02396
由于室内环境中存在运动和静止杂波,毫米波调频连续波雷达在室内环境中进行人体存在检测具有挑战性。这项工作提出了“HOOD”作为一个实时鲁棒的人的存在和分布(OOD)的检测方法,利用60 GHz的近程FMCW雷达。我们的方法存在检测应用程序作为一个OOD检测问题,并解决这两个问题,同时使用一个单一的流水线。我们的解决方案依赖于基于重建的架构,并与雷达宏观和微观距离多普勒图像(RDIs)一起工作。HOOD的目的是准确地检测人类的“存在”,在存在或不存在移动和静止的干扰。由于它也是一个OOD检测器,它的目的是检测移动或静止的杂波在人类不存在的情况下作为OOD,并预测当前场景的输出为“不存在”。“HOOD是一种无活动的方法,在不同的人类场景中表现良好。在我们收集的数据集与60 GHz短程FMCW雷达,我们实现了94.36%的平均AUROC。此外,我们广泛的评估和实验表明,HOOD优于国家的最先进的(SOTA)OOD检测方法在共同的OOD检测指标。我们的实时实验可在以下网站获得:https://muskahya.github.io/HOOD

1.7 Diffusion Models for Counterfactual Generation and Anomaly Detection in Brain Images

脑图像反事实生成和异常检测的扩散模型
https://arxiv.org/abs/2308.02062
病理区域的分割掩模在许多医学应用中是有用的,诸如脑肿瘤和中风管理。此外,患病图像的健康反事实可以用于增强放射科医师的训练文件并提高分割模型的可解释性。在这项工作中,我们提出了一个弱监督的方法来生成一个健康的版本的患病图像,然后用它来获得一个像素的异常图。为此,我们首先考虑用ACAT获得的近似覆盖病理区域的显著性图。然后,我们提出了一种技术,允许对这些区域进行有针对性的修改,同时保留图像的其余部分。特别地,我们采用在健康样本上训练的扩散模型,并在采样过程的每个步骤中结合去噪扩散概率模型(DDPM)和去噪扩散隐式模型(DDIM)。DDPM用于修改显著图内受病变影响的区域,而DDIM保证重建显著图外的正常解剖结构。这两个部分也在每个时间步融合,以保证生成具有连贯外观的样本以及编辑和未编辑部分之间的无缝过渡。我们验证,当我们的方法被应用到健康的样本,输入图像重建没有显着的修改。我们将我们的方法与IST-3上用于中风病变分割的替代弱监督方法和BraTS 2021上用于脑肿瘤分割的替代弱监督方法进行比较,其中我们将最佳竞争方法的DICE评分从0.6534 $提高到0.7056 $。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 编解码 监控
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
134 2
|
7月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
3月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
3月前
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
5月前
|
机器学习/深度学习 人工智能 算法
计算机视觉:目标检测算法综述
【7月更文挑战第13天】目标检测作为计算机视觉领域的重要研究方向,近年来在深度学习技术的推动下取得了显著进展。然而,面对复杂多变的实际应用场景,仍需不断研究和探索更加高效、鲁棒的目标检测算法。随着技术的不断发展和应用场景的不断拓展,相信目标检测算法将在更多领域发挥重要作用。

热门文章

最新文章