人工智能|YOLOv1的简单介绍

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: YOLOv1将输入图像划分为7×7网格,每个网格单元预测2个边界框(BBOX)及对应置信度,并输出20类概率。通过中心点归属、相对坐标偏移与归一化,实现端到端实时目标检测。(239字)

 YOLO1是怎么进行目标识别的呐?

Grid = 整体整张网格(7×7 网格)

Grid cell = 网格单元(最标准)

BBOX(Bounding Box)= 边界框

        比如我们有一张448*448的图片,它会把这张图片划分成7*7的网格,每个网格都叫做一个

Grid cell(网格单元。YOLO会检测这张图片中有没有东西,比如这张图片中有一只小狗,一个

自行车,一辆汽车。比如YOLO识别到它们了,它们的中心点就会落在一个网格里。YOLO会根据

中心点再检测出一个边界框。这个边界框就叫做BBOX

image.gif


网络结构层

输入图片:448×448×3(RGB)

Backbone(骨干网络):就是多个卷积层的部分。

Neck(颈部网络):在YOLOV1里面可以把它理解成全连接网络。

head(检测头):就是最后7*7*30的输出就可以啦。

输出是:7*7*30的矩阵

    我们首先看一下最后的部分,最后是一个7*7*1024的输出,然后把它展平。进入只有两层的全

连接网络,然后把输出的1470的向量,变成为7*7*30的矩阵。S=7 就对应图片的7*749个网格

30就是每个网格都是30维的向量

image.gif

image.gif

   

     前 10 个数值分为两组,每组分别对应一个边界框的中心点坐标、以及宽高、用来表示检测

框的位置。每组末尾都有一个置信度,代表该边界框存在物体的概率。后面 20 个数值为 20 个类

别的概率,数据集一共包含 20 个目标类别。每个 Grid cell 预测2 个 BBOX可以同时检测同一个

格子里的两个物体,降低漏检率。

image.gif

     我们先来看标签数据的设定方式。当小狗的中心点落在某个网格单元中时,我们就需要为该网

格对应的 30 维向量打上对应的标签。其余不包含物体中心点的网格单元,全部置为负样本标签

以此实现 YOLOv1 中心点归属网格的检测规则。

image.gif


中心点和边界框的坐标数值

   YOLOv1 在数据集标注阶段,就是按原始图片的真实像素尺寸来标注物体位置(绝对坐标)

图片的左上角是定位原点(0,0),假设原始图片的大小是800 × 600。你标注工具

(LabelImg/VOC 格式)打的标签是:x_abs, y_abs, w_abs, h_abs。这是完全按 800×600 的像素

来的。

image.gif

YOLOv1 网络要求输入是 448×448 所以图片会被缩放到 448×448。坐标必须一起缩放!

不然位置就错位了。 所以要把像素坐标一起归一化到 0~1。直接除去图片的宽和高就可以啦。

image.gif

相对坐标到网络偏移

YOLOv1会在数据预处理阶段,会用相对位置算出中心点落在那个网格中。然后再计算中心点相对

于这个网络的偏移量。此时的下x,y是相对于该网格的偏移量。w,h是相对于整张图片的偏移量

image.gif

预测阶段

符号 含义
x^,y^ 网络预测输出:当前网格内部相对偏移量(0~1),就是你上一张图里训练标签的 、
gridx,gridy 物体中心点所在的网格编号(0~6),训练阶段提前确定
w^,h^ 网络预测输出:整张图全局相对宽高(0~1),训练阶段直接归一化得到
x_absolute,y_absolute 最终还原:448×448 输入图片上,物体中心点绝对像素坐标
w_absolute,h_absolute 最终还原:448×448 输入图片上,框的绝对像素宽高
YOLOv1 固定输入尺寸参数:448÷7=64

image.gif

推理阶段

实时推理 = 依然不是原图

实时摄像头原始大图(任意尺寸)
【缩放 Resize】
网络固定输入 448×448
【7×7 网格划分 + 网络前向推理】
输出网格内部相对偏移量 x^, y^, w^, h^
【推理解码公式计算】
448×448 缩放图上绝对像素框
【比例映射还原】
原始大图上最终检测显示框

image.gif

image.gif


目录
相关文章
|
8天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
3677 16
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
16天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3602 13
|
10天前
|
人工智能 自然语言处理 供应链
|
12天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2995 7
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
19天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3727 25
|
10天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
1470 3
|
3天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
498 0
|
17天前
|
存储 Linux iOS开发
【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)