【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 11 日论文合集）-阿里云开发者社区

一、检测相关(11篇)

1.1 Follow Anything: Open-set detection, tracking, and following in real-time

随心所欲：开场检测、跟踪和实时跟踪
https://arxiv.org/abs/2308.05737
跟踪和跟踪感兴趣的对象对于从工业自动化到物流和仓储，再到医疗保健和安全的几个机器人用例至关重要。在本文中，我们提出了一个机器人系统，以检测，跟踪和跟踪任何对象的实时。我们的方法，被称为“跟随任何东西”（FAn），是一个开放的词汇和多模态模型-它不限于在训练时看到的概念，可以应用于推理时使用文本，图像或点击查询的新类。利用来自大规模预训练模型（基础模型）的丰富视觉描述符，FAn可以通过将多模态查询（文本，图像，点击）与输入图像序列进行匹配来检测和分割对象。这些检测和分割的对象跨图像帧被跟踪，同时考虑遮挡和对象重新出现。我们展示了FAn在现实世界的机器人系统（微型飞行器），并报告其能力，无缝地跟随感兴趣的对象在实时控制回路。FAn可以部署在具有轻量级（6-8 GB）显卡的笔记本电脑上，实现6-20帧/秒的吞吐量。为了实现快速采用、部署和可扩展性，我们在项目网页https://github.com/alaamaalouf/FollowAnything上开源了所有代码。我们也鼓励读者观看我们的5分钟解释视频在这个https://www.youtube.com/watch? v=6Mgt3EPytrw。

1.2 YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

YOLO-MS：实时目标检测的多尺度表征学习的再思考
https://arxiv.org/abs/2308.05480
我们的目标是提供一个高效和性能的对象检测器，称为YOLO-MS的对象检测社区。核心的设计是基于一系列的调查，以不同的核大小卷积如何影响在不同尺度的对象的检测性能。其结果是一种新的策略，可以大大提高实时对象检测器的多尺度特征表示。为了验证我们的策略的有效性，我们建立了一个网络架构，称为YOLO-MS。我们在MS COCO数据集上从头开始训练YOLO-MS，而不依赖任何其他大规模数据集，如ImageNet或预先训练的权重。在没有花哨的情况下，我们的YOLO-MS在使用相当数量的参数和FLOP时，性能优于最近最先进的实时对象检测器，包括YOLO-v7和RTMDet。以XS版YOLO-MS为例，仅4.5M可学习参数和8.7G FLOP，就能在MS COCO上实现43%+的AP评分，比同样模型大小的RTMDet高出约2%+。此外，我们的工作也可以用作其他YOLO模型的即插即用模块。通常，我们的方法用更少的参数和FLOP将YOLOv 8的AP从37%+显著提高到40%+。代码可在https://github.com/FishAndWasabi/YOLO-MS上获得。

1.3 Adaptive Low Rank Adaptation of Segment Anything to Salient Object Detection

自适应低阶自适应分割任意物体用于显著目标检测
https://arxiv.org/abs/2308.05426
OpenAI的GPT-3和GPT-4、Meta的LLaMA和Google的PaLM 2等基础模型已经彻底改变了人工智能领域。一个值得注意的范式转变是Segment Anything Model（SAM）的出现，它在10亿个面具和1100万张图像上训练，展示了分割现实世界物体的非凡能力。虽然SAM擅长一般对象分割，它缺乏内在的能力来检测显着的对象，导致在这个领域的次优性能。为了应对这一挑战，我们提出了分段显著对象模型（SSOM），这是一种创新的方法，通过利用深度学习固有的低秩结构，自适应地微调SAM以进行显著对象检测。五个具有挑战性的RGB基准数据集的全面定性和定量评估证明了我们的方法的优越性能，超越了最先进的方法。

1.4 Prostate Age Gap (PAG): An MRI surrogate marker of aging for prostate cancer detection

前列腺癌年龄差距(PAG)：一种用于前列腺癌诊断的MRI老化替代指标
https://arxiv.org/abs/2308.05344
背景：基于MRI的前列腺癌（PC）风险计算器通常基于生物学（例如：PSA）、MRI标记物（例如，体积）和患者年龄。虽然患者年龄测量个体存在的年数，但生物年龄（BA）可能更好地反映个体的生理学。然而，来自前列腺MRI的替代物以及与临床显著PC（csPC）的联系仍有待探索。目的：获得并评价前列腺年龄间隙（PAG）作为csPC风险的MRI标记工具。研究类型：回顾性。人群：来自468名接受前列腺活检的参与者的总计7243个前列腺MRI切片。深度学习模型在来自81个低级PC（ncsPC，Gleason评分<=6）和131个阴性病例的腺体周围裁剪的3223个MRI切片上进行训练，并在其余256名参与者上进行测试。评估：实足年龄定义为参与者在访视时的年龄，并用于训练深度学习模型以预测患者的年龄。随后，我们获得PAG，其定义为模型预测的年龄减去患者的实际年龄。采用多变量logistic回归模型通过比值比（OR）和PAG的预测值来评估相关性，并与PSA水平和PI-RADS ≥ 3进行比较。统计检验：t检验、Mann-Whitney U检验、Permutation检验和ROC曲线分析。结果：多变量校正模型显示临床显著性PC（csPC，Gleason评分>=7）的几率存在显著差异（OR =3.78，95%可信区间（CI）：2.32-6.16，P <.001）。与PI-RADS>=3相比，PAG显示出更好的预测能力，并通过其他风险因素进行调整，包括PSA水平：AUC =0.981对比AUC =0.704，p<.001。结论：PAG与临床显著性PC的风险显著相关，并且优于其他公认的PC风险因素。

1.5 TrainFors: A Large Benchmark Training Dataset for Image Manipulation Detection and Localization

TrainFors：用于图像操作检测和定位的大型基准训练数据集
https://arxiv.org/abs/2308.05264
图像处理检测和定位（IMDL）研究的评估数据集和指标已经标准化。但是用于这样的任务的训练数据集仍然是非标准的。以前的研究人员使用非常规和偏差数据集来训练神经网络，以检测图像伪造和定位操纵区域的像素图。为了进行公平的比较，训练集、测试集和评估指标应该是持久的。因此，比较现有的方法似乎并不公平，因为结果在很大程度上取决于训练数据集以及模型架构。此外，以前的工作都没有发布用于IMDL任务的合成训练数据集。我们提出了一个标准化的基准训练数据集的图像拼接，复制移动伪造，删除伪造和图像增强伪造。此外，我们确定现有的IMDL数据集的问题，并提出所需的修改。我们还在我们提出的TrainFors1数据集上训练了最先进的IMDL方法，以进行公平的评估，并报告了这些方法在类似条件下的实际性能。

1.6 Advancing Early Detection of Virus Yellows: Developing a Hybrid Convolutional Neural Network for Automatic Aphid Counting in Sugar Beet Fields

提高病毒黄化的早期检测：建立用于甜菜田自动计数的混合卷积神经网络
https://arxiv.org/abs/2308.05257
蚜虫是甜菜黄化病毒病的有效传播媒介。因此，及时监测和控制它们的种群对于防止病毒性黄热病的大规模爆发至关重要。然而，最常见的做法是人工计数蚜虫，这是劳动密集型和耗时的。此外，蚜虫计数中的两个最大挑战是蚜虫是小物体，并且它们的密度分布在该领域的不同区域是不同的。为了解决这些挑战，我们提出了一个混合的自动蚜虫计数网络架构，它集成了检测网络和密度图估计网络。当蚜虫分布密度较低时，利用改良的Yolov5进行蚜虫计数。反之，当蚜虫分布密度较高时，其切换到CSRNet来计数蚜虫。据我们所知，这是第一个集成检测网络和密度图估计网络的计数任务的框架。通过对蚜虫计数的对比实验，验证了该方法在蚜虫计数方面优于其他方法。它实现了标准和高密度蚜虫数据集的最低MAE和RMSE值：2.93和4.01（标准），以及34.19和38.66（高密度）。此外，改进的Yolov5的AP比原始Yolov5的AP高5%。特别是对于极小的蚜虫和密集分布的蚜虫，改进后的Yolov5的检测性能明显优于原Yolov5。本研究为甜菜田间蚜虫引起的病毒黄化风险提供了有效的预警，为甜菜的生长提供了保护，保证了甜菜的产量。数据集和项目代码发布于：https://github.com/JunfengGaolab/Counting-Aphids。

1.7 Leveraging the Edge and Cloud for V2X-Based Real-Time Object Detection in Autonomous Driving

利用边缘和云技术实现基于V2X的自动驾驶实时目标检测
https://arxiv.org/abs/2308.05234
环境感知是自动驾驶的关键要素，因为从感知模块接收的信息会影响核心驾驶决策。自动驾驶实时感知的一个突出挑战在于找到检测质量和延迟之间的最佳权衡。在自动驾驶车辆中，必须考虑计算和功率的主要约束以实现实时感知。较大的对象检测模型往往会产生最好的结果，但在运行时也较慢。由于最精确的检测器无法在本地实时运行，因此我们研究了将计算卸载到资源受限较少的边缘和云平台的可能性。我们创建了一个合成数据集来训练对象检测模型并评估不同的卸载策略。使用真实的硬件和网络模拟，我们比较不同的权衡预测质量和端到端的延迟。由于通过网络发送原始帧意味着额外的传输延迟，我们还探讨了使用JPEG和H.265压缩在不同的质量和测量其对预测指标的影响。我们表明，具有足够压缩的模型可以在云上实时运行，同时优于本地检测性能。

1.8 A Unified Interactive Model Evaluation for Classification, Object Detection, and Instance Segmentation in Computer Vision

计算机视觉中分类、目标检测和实例分割的统一交互模型评估
https://arxiv.org/abs/2308.05168
现有的模型评估工具主要集中在评估分类模型，在评估更复杂的模型（如对象检测）方面留下了空白。在本文中，我们开发了一个开源的视觉分析工具，Uni-Evaluator，支持一个统一的模型评估分类，对象检测和实例分割在计算机视觉。我们的方法背后的关键思想是制定在不同的任务作为统一的概率分布的离散和连续的预测。基于这些分布，我们开发了1）一个基于矩阵的可视化，以提供模型性能的概述; 2）表格可视化，以识别模型表现不佳的有问题的数据子集; 3）网格可视化以显示感兴趣的样本。这些可视化一起工作，以促进从全局概览到单个样本的模型评估。两个案例研究证明了Uni-Evaluator在评估模型性能和做出明智的改进方面的有效性。

1.9 Data-Free Model Extraction Attacks in the Context of Object Detection

目标检测环境下的无数据模型提取攻击
https://arxiv.org/abs/2308.05127
大量的机器学习模型容易受到模型提取攻击，这些攻击的重点是通过对目标模型使用专门策划的查询来窃取模型。通过使用部分训练数据或代理数据集来训练模仿白盒环境中的目标模型的新模型，可以很好地完成该任务。然而，在实际情况下，目标模型是在对手无法访问的私有数据集上训练的。无数据模型提取技术在使用由生成器人工策划的查询时取代了这个问题，该生成器类似于生成对抗网中使用的生成器。我们提出了第一次，据我们所知，一个对手的黑盒攻击扩展到回归问题预测边界框坐标的对象检测。作为我们研究的一部分，我们发现定义损失函数并使用新的生成器设置是提取目标模型的关键方面之一。我们发现，所提出的模型提取方法取得了显着的效果，通过使用合理的查询。此对象检测漏洞的发现将支持保护此类模型的未来前景。

1.10 Balancing Accuracy and Training Time in Federated Learning for Violence Detection in Surveillance Videos: A Study of Neural Network Architectures

联合学习在监控视频暴力检测中精度和训练时间的权衡：神经网络结构的研究
https://arxiv.org/abs/2308.05106
本文提出了一种调查机器学习技术的暴力检测视频和他们的适应联邦学习环境。这项研究包括实验与时空特征提取基准视频数据集，不同的方法比较，并建议修改版本的“流门控”架构称为“Diff-Gated。此外，还探索了各种机器学习技术，包括超收敛和迁移学习，并开发了一种使集中式数据集适应联合学习环境的方法。与最先进的模型相比，该研究通过在联邦学习环境中训练最佳暴力检测模型来实现更好的准确性结果。

1.11 An Improved Model for Diabetic Retinopathy Detection by using Transfer Learning and Ensemble Learning

基于迁移学习和集成学习的糖尿病视网膜病变检测改进模型
https://arxiv.org/abs/2308.05178
糖尿病视网膜病变（DR）是由血液中持续高水平的糖引起的眼部病症，其导致视网膜毛细血管阻塞和出血，从而引起视网膜组织损伤。通常会导致失明。早期发现有助于降低DR的风险及其严重程度。糖尿病视网膜病变的鲁棒且准确的预测和检测是一项具有挑战性的任务。本文开发了一种用于检测糖尿病视网膜病变的机器学习模型，该模型完全准确。预训练的模型，如ResNet 50，InceptionV 3，Xception，DenseNet 121，VGG 19，NASNetMobile，MobileNetV 2，DensNet 169和DenseNet 201，其底部具有池化层，密集层和适当的dropout层，在迁移学习（TL）方法中进行。进行数据扩充和正则化以减少过拟合。DenseNet 121的迁移学习模型、DenseNet 169和DenseNet 201 TL架构的平均和加权集成分别贡献了100%的最高准确率、100%的最高精确率、100%的召回率和100%的F-1分数。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 11 日论文合集）

一、检测相关(11篇)

1.1 Follow Anything: Open-set detection, tracking, and following in real-time

1.2 YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

1.3 Adaptive Low Rank Adaptation of Segment Anything to Salient Object Detection

1.4 Prostate Age Gap (PAG): An MRI surrogate marker of aging for prostate cancer detection

1.5 TrainFors: A Large Benchmark Training Dataset for Image Manipulation Detection and Localization

1.6 Advancing Early Detection of Virus Yellows: Developing a Hybrid Convolutional Neural Network for Automatic Aphid Counting in Sugar Beet Fields

1.7 Leveraging the Edge and Cloud for V2X-Based Real-Time Object Detection in Autonomous Driving

1.8 A Unified Interactive Model Evaluation for Classification, Object Detection, and Instance Segmentation in Computer Vision

1.9 Data-Free Model Extraction Attacks in the Context of Object Detection

1.10 Balancing Accuracy and Training Time in Federated Learning for Violence Detection in Surveillance Videos: A Study of Neural Network Architectures

1.11 An Improved Model for Diabetic Retinopathy Detection by using Transfer Learning and Ensemble Learning

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 11 日论文合集）

一、检测相关(11篇)

1.1 Follow Anything: Open-set detection, tracking, and following in real-time

1.2 YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

1.3 Adaptive Low Rank Adaptation of Segment Anything to Salient Object Detection

1.4 Prostate Age Gap (PAG): An MRI surrogate marker of aging for prostate cancer detection

1.5 TrainFors: A Large Benchmark Training Dataset for Image Manipulation Detection and Localization

1.6 Advancing Early Detection of Virus Yellows: Developing a Hybrid Convolutional Neural Network for Automatic Aphid Counting in Sugar Beet Fields

1.7 Leveraging the Edge and Cloud for V2X-Based Real-Time Object Detection in Autonomous Driving

1.8 A Unified Interactive Model Evaluation for Classification, Object Detection, and Instance Segmentation in Computer Vision

1.9 Data-Free Model Extraction Attacks in the Context of Object Detection

1.10 Balancing Accuracy and Training Time in Federated Learning for Violence Detection in Surveillance Videos: A Study of Neural Network Architectures

1.11 An Improved Model for Diabetic Retinopathy Detection by using Transfer Learning and Ensemble Learning

热门文章

最新文章

相关课程

相关电子书