【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 8 日论文合集）-阿里云开发者社区

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 8 日论文合集）

2023-08-15 59

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 8 日论文合集）

一、检测相关(7篇)

1.1 T-UNet: Triplet UNet for Change Detection in High-Resolution Remote Sensing Images

T-UNET：用于高分辨率遥感图像变化检测的三重UNET

https://arxiv.org/abs/2308.02356

遥感图像变化检测的目的是识别同一地区不同时间获取的图像之间的差异。它广泛应用于土地管理、环境监测、灾害评估等领域。目前，大多数变化检测方法是基于暹罗网络结构或早期融合结构。Siamese结构侧重于提取不同时刻的目标特征，但缺乏对变化信息的关注，从而导致虚警和漏检。早期融合（EF）结构侧重于提取不同阶段图像融合后的特征，但忽略了不同时刻目标特征对检测变化细节的重要性，使得难以准确识别变化目标的边缘。为了解决这些问题，并获得更准确的结果，我们提出了一种新的网络，三元组UNet（T-UNet），基于一个三分支编码器，这是能够同时提取的对象特征和变化之间的前和后的时间相位图像通过三重编码器的功能。为了有效地交互和融合三重编码器的三个分支提取的特征，我们提出了一个多分支的空间-频谱交叉注意模块（MBSSCA）。在解码阶段，引入通道注意机制（CAM）和空间注意机制（SAM），充分挖掘和整合浅层的细节纹理信息和深层的语义定位信息。

1.2 Deep Semantic Model Fusion for Ancient Agricultural Terrace Detection

用于古农业梯田检测的深层语义模型融合

https://arxiv.org/abs/2308.02225

在沙漠地区发现古代农业梯田对于监测地球表面的长期气候变化具有重要意义。然而，传统的地面勘测既昂贵又规模有限。随着航空和卫星数据的可访问性越来越高，机器学习技术在考古景观的自动检测和识别方面具有很大的潜力。本文提出了一种用于古农业梯田检测的深度语义模型融合方法。输入数据包括航空图像和激光雷达生成的内盖夫沙漠地形特征。两个深度语义分割模型，即DeepLabv3+和UNet，具有EfficientNet主干，被训练和融合，以提供古代梯田和墙壁的分割图。该方法在国际人工智能考古挑战赛中获得了一等奖。代码可在https://github.com/wangyi111/international-archaeology-ai-challenge获取。

1.3 Balanced Classification: A Unified Framework for Long-Tailed Object Detection

平衡分类：一种长尾目标检测的统一框架

https://arxiv.org/abs/2308.02213

传统的检测器在处理长尾数据时，由于对大多数头部类别的分类偏差，性能下降。在本文中，我们认为，学习偏见源于两个因素：1）由前景类别的不平衡分布引起的不平等竞争，以及2）尾部类别中缺乏样本多样性。为了解决这些问题，我们引入了一个统一的框架，称为平衡分类（BACL），它能够自适应纠正的不平等的类别分布和动态强化样本多样性在同步的方式。具体而言，一种新的前景分类平衡损失（FCBL）的开发，以改善主导的头部类别和转移注意力难以区分的类别引入成对的类感知边际和自动调整的权重项，分别。这种损失防止了在不平等竞争的背景下对尾部类别的过度抑制。此外，我们提出了一个动态的特征超分辨率模块（FHM），它通过合成超分辨率样本来引入额外的数据方差，从而增强了特征空间中尾部类别的表示。在这种分而治之的方法中，BACL通过解耦的训练管道在具有挑战性的LVIS基准上设置了一个新的最先进的技术，在整体和尾部类别上超过了具有ResNet-50-FPN的vanilla Faster R-CNN 5.8% AP和16.1% AP。大量的实验表明，BACL在具有不同骨干和架构的各种数据集上始终实现性能改进。代码和型号可在https://github.com/Tianhao-Qi/BACL获得。

1.4 Synthetic outlier generation for anomaly detection in autonomous driving

用于自动驾驶异常检测的合成离群点生成
https://arxiv.org/abs/2308.02184
异常检测或离群值检测是各种领域中的关键任务，用于识别显著偏离已建立模式或大部分数据的实例。在自动驾驶的背景下，识别异常对于防止安全关键事件尤为重要，因为深度学习模型通常会对异常或离群样本表现出过度自信。在这项研究中，我们探讨了不同的策略训练图像语义分割模型与异常检测模块。通过对最先进的DenseHybrid模型的训练阶段进行修改，我们在异常检测方面实现了显着的性能改进。此外，我们提出了一个简化的检测器，实现了与我们的修改后的DenseHybrid方法相当的结果，同时也超过了原来的DenseHybrid模型的性能。这些研究结果表明，我们提出的策略，在自动驾驶的背景下，提高异常检测的有效性。

1.5 Attention-Driven Lightweight Model for Pigmented Skin Lesion Detection

注意力驱动的轻量级皮肤色素性病变检测模型
https://arxiv.org/abs/2308.02119
这项研究提出了一个轻量级的管道皮肤病变检测，解决了不平衡的类分布和微妙的或非典型的一些病变的外观所带来的挑战。该流水线是围绕一个轻量级模型构建的，该模型利用重影特征和DFC注意机制来降低计算复杂度，同时保持高性能。该模型在HAM 10000数据集上进行训练，该数据集包括各种类型的皮肤病变。为了解决数据集中的类别不平衡，使用了合成少数过采样技术和各种图像增强技术。该模型还采用了基于知识的损失加权技术，该技术在类级别和实例级别为损失函数分配不同的权重，帮助模型专注于少数类和具有挑战性的样本。这种技术涉及在两个级别上为损失函数分配不同的权重-类级别和实例级别。通过应用适当的损失权重，该模型更加关注少数类和挑战性样本，从而提高其正确检测和分类不同皮肤病变的能力。该模型实现了92.4%的准确度，84.2%的精确度，86.9%的召回率，85.4%的f1评分，在识别良性角化病样病变（BKL）和痣（NV）方面具有特别强的性能。尽管其优越的性能，该模型的计算成本大大低于一些模型的准确性较低，使其成为一个最佳的解决方案，为现实世界中的应用程序的准确性和效率都是必不可少的。

1.6 HOOD: Real-Time Robust Human Presence and Out-of-Distribution Detection with Low-Cost FMCW Radar

Hood：利用低成本FMCW雷达实现实时、稳健的人员存在和偏离分布检测
https://arxiv.org/abs/2308.02396
由于室内环境中存在运动和静止杂波，毫米波调频连续波雷达在室内环境中进行人体存在检测具有挑战性。这项工作提出了“HOOD”作为一个实时鲁棒的人的存在和分布（OOD）的检测方法，利用60 GHz的近程FMCW雷达。我们的方法存在检测应用程序作为一个OOD检测问题，并解决这两个问题，同时使用一个单一的流水线。我们的解决方案依赖于基于重建的架构，并与雷达宏观和微观距离多普勒图像（RDIs）一起工作。HOOD的目的是准确地检测人类的“存在”，在存在或不存在移动和静止的干扰。由于它也是一个OOD检测器，它的目的是检测移动或静止的杂波在人类不存在的情况下作为OOD，并预测当前场景的输出为“不存在”。“HOOD是一种无活动的方法，在不同的人类场景中表现良好。在我们收集的数据集与60 GHz短程FMCW雷达，我们实现了94.36%的平均AUROC。此外，我们广泛的评估和实验表明，HOOD优于国家的最先进的（SOTA）OOD检测方法在共同的OOD检测指标。我们的实时实验可在以下网站获得：https://muskahya.github.io/HOOD

1.7 Diffusion Models for Counterfactual Generation and Anomaly Detection in Brain Images

脑图像反事实生成和异常检测的扩散模型
https://arxiv.org/abs/2308.02062
病理区域的分割掩模在许多医学应用中是有用的，诸如脑肿瘤和中风管理。此外，患病图像的健康反事实可以用于增强放射科医师的训练文件并提高分割模型的可解释性。在这项工作中，我们提出了一个弱监督的方法来生成一个健康的版本的患病图像，然后用它来获得一个像素的异常图。为此，我们首先考虑用ACAT获得的近似覆盖病理区域的显著性图。然后，我们提出了一种技术，允许对这些区域进行有针对性的修改，同时保留图像的其余部分。特别地，我们采用在健康样本上训练的扩散模型，并在采样过程的每个步骤中结合去噪扩散概率模型（DDPM）和去噪扩散隐式模型（DDIM）。DDPM用于修改显著图内受病变影响的区域，而DDIM保证重建显著图外的正常解剖结构。这两个部分也在每个时间步融合，以保证生成具有连贯外观的样本以及编辑和未编辑部分之间的无缝过渡。我们验证，当我们的方法被应用到健康的样本，输入图像重建没有显着的修改。我们将我们的方法与IST-3上用于中风病变分割的替代弱监督方法和BraTS 2021上用于脑肿瘤分割的替代弱监督方法进行比较，其中我们将最佳竞争方法的DICE评分从0.6534 $提高到0.7056 $。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 8 日论文合集）

一、检测相关(7篇)

1.1 T-UNet: Triplet UNet for Change Detection in High-Resolution Remote Sensing Images

1.2 Deep Semantic Model Fusion for Ancient Agricultural Terrace Detection

1.3 Balanced Classification: A Unified Framework for Long-Tailed Object Detection

1.4 Synthetic outlier generation for anomaly detection in autonomous driving

1.5 Attention-Driven Lightweight Model for Pigmented Skin Lesion Detection

1.6 HOOD: Real-Time Robust Human Presence and Out-of-Distribution Detection with Low-Cost FMCW Radar

1.7 Diffusion Models for Counterfactual Generation and Anomaly Detection in Brain Images

热门文章

最新文章

相关课程

相关电子书

相关实验场景