CVPR 2024 目标检测!开放词汇

简介: YOLO-World是CVPR 2024提出的一种实时开放词汇目标检测模型,首次将YOLO的高速特性与开放词汇识别能力结合。它无需微调即可通过文本提示检测任意物体,支持零样本推理,兼具高精度与灵活性,适用于机器人、自动驾驶等实时感知场景,标志着目标检测迈向通用化新阶段。

CVPR 2024 目标检测!开放词汇

01 论文概述

论文名称:YOLO-World: Real-Time Open-Vocabulary Object Detection

会议名称:CVPR (2024)

👉一键直达论文

👉Lab4AI大模型实验室论文

🌟简介

在相当长的一段时间里,目标检测领域存在一个核心的权衡:要么选择像 YOLO 系列那样拥有极致速度但只能识别固定类别的“闭集”检测器,要么选择像 Grounding DINO 那样能够识别任意文本描述但速度较慢的“开放集”检测器。对于需要实时响应和灵活性的现实世界应用(如机器人、自动驾驶),这一直是个难题。

于2024年初发布的 YOLO-World 彻底打破了这一局面。该研究首次成功地将开放词汇(Open-Vocabulary)能力与以速度著称的 YOLO 架构进行了深度融合。YOLO-World 能够在不需要为新类别进行任何训练的情况下,实时地检测由任意文本描述的物体。它的问世,标志着目标检测技术进入了一个兼具速度、灵活性和强大泛化能力的新纪元,并已成为后续实时通用感知系统的关键基石。

🔍 优势

  • 实时开放词汇检测

    YOLO-World 的标志性贡献。它在保持 YOLO 系列无与伦比的推理速度的同时,实现了对任意文本提示的零样本检测能力,完美解决了速度与灵活性的核心矛盾。

  • 强大的零样本性能

    通过在大规模图文数据集上进行预训练,YOLO-World 能够直接检测从未见过的物体类别,表现出卓越的泛化能力,极大地拓宽了其应用场景。

  • 灵活高效的部署

    模型支持“在线”和“离线”两种词汇表模式。在线模式可以动态接收文本提示,灵活性最高;离线模式则可以将词汇表预先编译进模型,实现极致的推理速度,方便生产环境部署。

  • 继承YOLO生态

    建立在成熟的 YOLO 架构之上,使其能够轻松地被社区和行业接受,并方便地集成到现有的、为 YOLO 优化的部署流程和硬件加速方案中。

🛠️ 核心技术

  • 可提示的YOLO架构 (Promptable YOLO Architecture)

    模型的核心是一个经过改造的 YOLO 检测器。它引入了一个轻量级的文本编码器来处理输入文本,并将文本特征高效地注入到检测流程中,使得整个模型可以被语言动态“编程”。

  • 区域-文本对比学习预训练 (Region-Text Contrastive Pre-training)

    YOLO-World 在大规模的视觉定位(Grounding)数据集上进行预训练。其核心目标是让模型学习到将图像中任意一个对象区域的视觉特征,与描述该对象的文本特征进行精确对齐。

  • 视觉-语言路径聚合网络 (Vision-Language Path Aggregation Network - VL-PAN)

    为了在保持速度的同时实现有效的跨模态融合,作者设计了 VL-PAN。它能够在 YOLO 的特征金字塔(FPN/PAN)结构中,以极小的计算开销,将文本特征与多尺度的视觉特征进行深度交互。

  • 解耦的检测头与类别无关嵌入 (Decoupled Head with Class-Agnostic Embedding)

    模型的检测头被设计为类别无关的,它不直接预测固定的类别ID,而是预测一个“物体存在度”和该物体的视觉嵌入向量。最终的分类通过计算此视觉嵌入与用户提供词汇的文本嵌入之间的相似度来完成。

02 论文原文阅读

您可以跳转到Lab4AI.cn上进行查看。👉Lab4AI大模型实验室论文复现

  • Lab4AI.cn提供免费的AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新。

03 一键式论文复现

Lab4AI平台上已上架了此篇复现案例,登录平台即可体验论文复现。

👉Lab4AI项目复现

🛠️ 实验部署

本实验环境已为您精心配置,开箱即用。

  • 💻 代码获取:项目复现代码已存放于 /codelab/YOLO-World/code 文件夹中。
  • 🧠 模型说明:/codelab/YOLO-World/model 文件夹中存放了 YOLO-World 的预训练模型权重。
  • 📊 数据说明:/codelab/YOLO-World/dataset 文件夹中包含了用于实验的示例图像和提示词。
  • 🌐 环境说明:运行所需的所有依赖已预安装在 /envs/yoloworld/ 环境中,您无需进行任何额外的环境配置。

🚀 环境与内核配置

请在终端中执行以下步骤,以确保您的开发环境(如 Jupyter 或 VS Code)能够正确使用预设的 Conda 环境。

1. 在 Jupyter Notebook/Lab 中使用您的环境

  • 为了让Jupyter能够识别并使用您刚刚创建的Conda环境,您需要为其注册一个“内核”。
  • 首先,在您已激活的Conda环境中,安装 ipykernel 包:

      conda activate yoloworld
      pip install ipykernel
    
  • 然后,执行内核注册命令。

      #为名为 yoloworld 的环境注册一个名为 "Python(yoloworld)" 的内核
      kernel_install --name yoloworld --display-name "Python(yoloworld)"
    
  • 完成以上操作后,刷新您项目中的Jupyter Notebook页面。在右上角的内核选择区域,您现在应该就能看到并选择您刚刚创建的 "Python(yoloworld)" 内核了。

2. 在 VS Code 中使用您的环境

  • VS Code 可以自动检测到您新创建的Conda环境,切换过程非常快捷。
  • 第一步: 选择 Python 解释器
    • 确保VS Code中已经安装了官方的 Python 扩展。
    • 使用快捷键 Ctrl+Shift+P (Windows/Linux) 或 Cmd+Shift+P (macOS) 打开命令面板。
    • 输入并选择 Python: Select Interpreter。
  • 第二步: 选择您的 Conda 环境
    • 在弹出的列表中,找到并点击您刚刚创建的环境(名为 yoloworld 的 Conda 环境)。
    • 选择后,VS Code 窗口右下角的状态栏会显示 yoloworld,表示切换成功。此后,当您在 VS Code 中打开 Jupyter Notebook (.ipynb) 文件时,它会自动或推荐您使用此环境的内核。
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
5月前
|
人工智能 自然语言处理 计算机视觉
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
VTimeLLM提出新型时间感知架构,赋能大语言模型精准理解视频时序瞬间。通过时间对齐表征与时序预训练,实现事件定位、时序推理与细粒度视频理解,支持自然语言交互式探索视频内容。
203 0
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
|
5月前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。
2548 6
|
8月前
|
机器学习/深度学习 人工智能 监控
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
坐姿标准好坏姿态数据集的发布,填补了计算机视觉领域在“细分健康行为识别”上的空白。它不仅具有研究价值,更在实际应用层面具备广阔前景。从青少年的健康教育,到办公室的智能提醒,再到驾驶员的安全监控和康复训练,本数据集都能发挥巨大的作用。
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
7月前
|
机器学习/深度学习 人工智能 机器人
目标检测数据集 — 田间杂草检测数据集(4000张图片已划分、已标注)
未来,随着数据量的进一步扩充,可以细分更多类别,如不同种类的杂草与不同生长阶段的作物,从而实现更精细化的识别与管理。通过该数据集,研究人员与开发者可以为 农业现代化与智慧农业 提供坚实的数据基础,加速农业 AI 技术在实际生产中的落地。
|
7月前
|
机器学习/深度学习 传感器 编解码
DINOv3上手指南:改变视觉模型使用方式,一个模型搞定分割、检测、深度估计
DINOv3是Meta推出的自监督视觉模型,支持冻结主干、仅训练轻量任务头即可在分割、深度估计等任务上达到SOTA,极大降低训练成本。其密集特征质量优异,适用于遥感、工业检测等多领域,真正实现“一个模型走天下”。
5265 2
DINOv3上手指南:改变视觉模型使用方式,一个模型搞定分割、检测、深度估计
|
机器学习/深度学习 人工智能 监控
高质量人体检测与行人识别数据集-千张标注图片全解析已标注(目标检测任务数据集)分享
在计算机视觉和人工智能的发展浪潮中,人体检测与行人识别 是一个极具应用价值和研究意义的方向。从智能监控到自动驾驶,从智慧城市到公共安全,人体检测数据集的质量与规模往往直接决定了算法模型的性能。本文将围绕一个包含 上千张图片、已完成划分与标注 的 人体检测、行人识别数据集 展开介绍,帮助研究者和开发者快速了解该数据集的特点、优势及其适用场景。
|
人工智能 编解码 自动驾驶
RF-DETR:YOLO霸主地位不保?开源 SOTA 实时目标检测模型,比眨眼还快3倍!
RF-DETR是首个在COCO数据集上突破60 mAP的实时检测模型,结合Transformer架构与DINOv2主干网络,支持多分辨率灵活切换,为安防、自动驾驶等场景提供高精度实时检测方案。
3068 6
RF-DETR:YOLO霸主地位不保?开源 SOTA 实时目标检测模型,比眨眼还快3倍!
|
机器学习/深度学习 人工智能 计算机视觉
YOLOv11 正式发布!你需要知道什么? 另附:YOLOv8 与YOLOv11 各模型性能比较
YOLOv11是Ultralytics团队推出的最新版本,相比YOLOv10带来了多项改进。主要特点包括:模型架构优化、GPU训练加速、速度提升、参数减少以及更强的适应性和更多任务支持。YOLOv11支持目标检测、图像分割、姿态估计、旋转边界框和图像分类等多种任务,并提供不同尺寸的模型版本,以满足不同应用场景的需求。
YOLOv11 正式发布!你需要知道什么? 另附:YOLOv8 与YOLOv11 各模型性能比较