文档备案控制台

开发者社区机器智能技术文章正文

目标检测入门系列手册一：定位 + 分类问题的解法

2019-12-02 3347

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 目标检测入门系列手册一：定位 + 分类问题的解法

>>戳此处立即下载电子书<<，学习全套目标检测算法&模型

定位 + 分类问题是分类到目标检测的一个过渡问题，从单纯地图片分类到分类后给出目标所处位置，再到多目标的类别和位置。接下来，我们看一下定位+ 分类问题的解法。

分类不用多说，上一章我们以分类为例讲了卷积神经网络。在定位问题中，则需要模型返回目标所在的外接矩形框，即目标的（x,y,w,h）四元组。

接下来介绍一种比较容易想到的思路，把定位当做回归问题，具体步骤如下：

（1）训练（或下载）一个分类模型，例如AlexNet、VGGNet 或ResNet；

（2）在分类网络最后一个卷积层的特征层（feature map）上添加“regression head”，如图1-2 所示；补充说明：神经网络中不同的“head”通常用来训练不同的目标，每个“head”的损失函数和优化方向不同。如果想让一个网络实现多个功能，通常是在神经网络后面接多个不同功能的“head”。

（3）同时训练“classification head”和“regression head”，为了同时训练分类和定位（定位是回归问题）两个问题，最终损失函数是分类和定位两个“head”产生损失的加权和。

（4）在预测时同时使用分类和回归head 得到分类+ 定位结果。这里强调一下，分类预测出的结果就是C 个类别，回归预测的结果可能有两种：一种是类别无关，输出4个值；一种是类别相关，输出4*C 个值，这要看读者想要哪种结果了。

文章标签：

计算机视觉

机器学习/深度学习

数据挖掘

算法

xxrjl

目录

相关文章

zzy的aly

|

机器学习/深度学习编解码监控

目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务（从数据准备到训练测试部署的完整流程）

这篇文章详细介绍了如何使用YOLOv8进行目标检测任务，包括环境搭建、数据准备、模型训练、验证测试以及模型转换等完整流程。

zzy的aly

28727 59 64

目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务（从数据准备到训练测试部署的完整流程）

AI研究者手札

|

12月前

|

人工智能自然语言处理开发工具

统一多模态 Transformer 架构在跨模态表示学习中的应用与优化

本文介绍统一多模态 Transformer（UMT）在跨模态表示学习中的应用与优化，涵盖模型架构、实现细节与实验效果，探讨其在图文检索、图像生成等任务中的卓越性能。

AI研究者手札

1071 1 1

统一多模态 Transformer 架构在跨模态表示学习中的应用与优化

34789737

|

9月前

|

IDE 编译器开发工具

msvcp100.dll,msvcp120.dll,msvcp140.dll，Microsoft Visual C++ 2015 Redistributable，Visual C++ 运行库安装

MSVC是Windows下C/C++开发核心工具，集成编译器、链接器与调试器，配合Visual Studio使用。其运行时库（如msvcp140.dll）为程序提供基础函数支持，常因缺失导致软件无法运行。通过安装对应版本的Microsoft Visual C++ Redistributable可解决此类问题，广泛应用于桌面软件、游戏及系统级开发。

34789737

1095 2 2

Deephub

|

机器学习/深度学习人工智能自然语言处理

多模态AI核心技术：CLIP与SigLIP技术原理与应用进展

近年来，多模态表示学习在人工智能领域取得显著进展，CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出，通过对比学习对齐图像与文本嵌入空间，具备强大零样本学习能力；SigLIP由Google开发，采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型（MLLMs）的发展，如LLaVA、BLIP-2和Flamingo等，实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界，还为医疗、教育等领域释放技术潜力，标志着多模态智能系统的重要进步。

Deephub

2823 13 13

多模态AI核心技术：CLIP与SigLIP技术原理与应用进展

楠竹11

|

安全机器人开发者

清华开源全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶HF具身热榜

清华大学近期发布了全球最大的双臂机器人扩散大模型RDT，该模型在调酒、遛狗等任务上表现优异，登顶Hugging Face具身智能热榜。RDT采用扩散架构，具备强大的学习能力，能生成高质量的机器人动作序列，展示了清华在机器人技术领域的领先水平。尽管面临泛化能力、计算资源及安全性等挑战，RDT的开源特性仍为其广泛应用和发展提供了广阔前景。

楠竹11

587 8 9

fulwoder88

|

SQL 人工智能搜索推荐

通义灵码 Rules 来了：个性化代码生成，对抗模型幻觉

通义灵码又上新外挂啦，Project Rules来了。当模型生成代码不精准，试下通义灵码 Rules，对抗模型幻觉，硬控 AI 根据你的代码风格和偏好生成代码和回复。

fulwoder88

2312 7 7

被纵养的懒猫

大尺度信道建模 | 带你读《大规模天线波束赋形技术原理与设计》之二十四

本节将介绍 3D 信道模型中不同传输场景的大尺度衰落模型，包括路损计算、穿透损耗、直射径概率、阴影衰落等。

被纵养的懒猫

9635 0 0

大尺度信道建模 | 带你读《大规模天线波束赋形技术原理与设计》之二十四

雅纯

|

人工智能 API 数据安全/隐私保护

云效+SAE，5分钟搞定一个AI 应用的开发和部署

本实验将带你体验云效应用交付平台AppStack+Serverless 应用交付引擎 SAE，从应用视角，完成一个AI聊天助手的高效交付。

雅纯

1183 0 1

Deephub

|

机器学习/深度学习人工智能数据可视化

号称能打败MLP的KAN到底行不行？数学核心原理全面解析

Kolmogorov-Arnold Networks (KANs) 是一种新型神经网络架构，挑战了多层感知器（mlp）的基础，通过在权重而非节点上使用可学习的激活函数（如b样条），提高了准确性和可解释性。KANs利用Kolmogorov-Arnold表示定理，将复杂函数分解为简单函数的组合，简化了神经网络的近似过程。与mlp相比，KAN在参数量较少的情况下能达到类似或更好的性能，并能直观地可视化，增强了模型的可解释性。尽管仍需更多研究验证其优势，KAN为深度学习领域带来了新的思路。

Deephub

7440 5 5

郑小健

|

机器学习/深度学习资源调度 PyTorch

面向大规模分布式训练的资源调度与优化策略

【8月更文第15天】随着深度学习模型的复杂度不断提高，对计算资源的需求也日益增长。为了加速训练过程并降低运行成本，高效的资源调度和优化策略变得至关重要。本文将探讨在大规模分布式训练场景下如何有效地进行资源调度，并通过具体的代码示例来展示这些策略的实际应用。

郑小健

1566 1 1

机器智能技术

热门文章

最新文章

Apache Flink 漫谈系列(08) - SQL概览

20年IT老兵分享：账务系统设计及应用

多Master节点的k8s集群部署

Nginx nginx: [emerg] bind() to 0.0.0.0:8083 failed (48: Address already in use)

拔得头筹 | 阿里云混合云荣膺IPv6最佳实践奖

SCVMM 2012 R2运维管理二之：安装域控制器

nginx与php-fpm的运行方式?

u-boot移植随笔(7)：u-boot启动流程简图【转】

微信也能鉴别山寨iPhone【微信高级教程2】

ext表格范例

【2026最新】Vim下载|gvim下载、安装、使用手把手图文（超详细）

绕过摩尔定律的时钟独裁

ERP管“账”RFID管“物”：构建企业资产“账实合一”的管理闭环

从抗金属标签到智能手持终端：RFID硬件在复杂环境下的选型实战

OpenClaw本地部署TopClaw，小龙虾AI零基础一键安装指南

OpenClaw一键安装TopClaw官网，小龙虾智能体汉化版下载教程

小龙虾安装教程TopClaw中文版，OpenClaw AI免费部署指南

TopClaw OpenClaw Mac安装教程，小龙虾AI一键本地部署macOS指南

RFID资产管理系统到底好不好用？真实测评来了

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！