人工智能|YOLOv1的损失函数和非极大值抑制

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: YOLOv1将图像划分为7×7网格,每格预测2个边界框(共98个),含中心点、宽高、置信度及20类概率。损失函数由坐标(加权5)、置信度(含/不含物体分权重)和分类三部分构成,均采用带平衡系数的均方误差,并以IoU为核心匹配与评估依据。(239字)

 损失函数

YOLOv1把图片分成了7*7=49个网格,每个网格可以预测两组中心点边界框的信息。也就是

49*2,一共98个中心点边界框。那么哪一个中心点和边界框才是最好的,最准的呐?

image.gif

YOLO 模型检测效果优劣的核心评价指标为交并比(IoU),其计算方式如下:在数据预处理阶

段,我们已经标注得到目标物体准确的位置与尺寸信息,该标准边界框称为真实框(Ground

Truth,GT),是模型训练的监督标签。模型推理时会输出一个预测边界框,通过计算预测框与真

实框的交集面积 / 并集面积,即可得到 IoU 值,以此衡量预测框的精准程度

image.gif

预测阶段,网络在每个网格输出的信息包含:

两组边界框中心点偏移宽高偏移量;以及对应两个框的置信度。YOLOv1 置信度定义为:网格包

含目标物体的概率 × 预测框与真实框的 IoU;其中网格存在物体概率为 1,不存在物体则为 0。除

此之外,每个网格还输出 20 个类别预测概率值

image.gif

YOLOv1 在训练过程中,会将网络预测得到的两个边界框标注绿色真实框(GT)进行匹配对

比,自动舍弃 IoU 交并比较小的预测框,仅保留匹配度更高的边界框参与后续损失函数计算。

image.gif

接下来介绍 YOLOv1 损失函数:

式中S2代表划分的7×7 共 49 个网格,参数B=2代表每个网格预测2 个边界框。

obj表示网格包含目标物体时取值为 1,不包含物体时取值为 0;noobj与之相反,网

格存在物体时取 0,不存在物体时取 1。

损失函数在计算时同时兼顾含物体网格与不含物体网格

权重系数 5 用于放大中心点与边界框坐标的损失权重。由于 49 个网格中真正包含物体的网格占比

极少,设置该权重可以增强含物体网格的损失贡献,引导模型重点关注目标位置。

损失函数前两项为位置损失,采用均方误差计算预测框中心点、宽高与真实框的偏差,计算方式为

真实值与预测值作差后平方。后续依次为置信度损失类别分类损失

image.gif


非极大值抑制

YOLOv1 一共会输出 98 个预测框,那么模型是如何从中筛选出最优检测框的呢?

每个网格输出的预测向量中,后 20 个数值为 20 个类别的预测概率;向量前 10 个参数包含两组边

界框信息,其中对应两个边界框的置信度得分。网格边界框的置信度得分由公式计算得出,具体定

义如下:

image.gif

随后我们可以得到2 个长度为 20 维的新向量,向量中每一个数值,分别代表该预测框对应各个类

别目标的置信可靠程度

image.gif

最终我们可以得到98 个 20 维向量,分别对应网络预测的 98 个边界框。向量中每一列数值,代表

对应类别的置信度得分,例如第一列即为目标属于汽车类别的置信度。

我们按类别依次处理:以汽车类别为例,筛选出置信度大于 0.2 的预测框,其余不符合条件的框全

部舍弃(代码实现时直接将对应置信度置 0);再将保留的预测框按照置信度从高到低排序,为后

续非极大值抑制 NMS 做准备。

image.gif

最终整理得到一个98×20 的矩阵,我们剔除矩阵中所有置信度为 0 的无效数据,即可进行预测框

绘制。以汽车类别为例:单独在汽车这一类中,筛选出置信度得分最高的预测框,提取其对应的中

心点与边界框坐标,绘制到原始图片上,并标注对应类别标签即可。

【1】上述所有内容,参考大白话讲明白YOLOv1的损失函数 #YOLO #YOLOv1 #目标检测 #深度学习#知识前沿派对 - 抖音

目录
相关文章
|
8天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
3677 16
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
16天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3602 13
|
10天前
|
人工智能 自然语言处理 供应链
|
12天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2995 7
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
19天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3727 25
|
10天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
1470 3
|
3天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
498 0
|
17天前
|
存储 Linux iOS开发
【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)