两届CVPR最佳论文得主何恺明新作:应对样本的不平衡分布,刷新密集物体检测表现上限

简介:

雷锋网 AI 科技评论按:CV大牛何恺明在Facebook人工智能实验室的新作,一起来围观!

何恺明博士,2007年清华大学毕业之后开始在微软亚洲研究院(MSRA)实习,2011年香港中文大学博士毕业后正式加入MSRA,目前在Facebook人工智能实验室(FAIR)实验室担任研究科学家。何恺明博士最让人印象深刻的是曾两次以第一作者身份摘得CVPR最佳论文奖(2009和2016),其中2016年CVPR最佳论文为图像识别中的深度残差学习(Deep Residual Learning for Image Recognition),就是举世闻名的152层深度残差网络 ResNet-152。


image


这次,何恺明博士的新论文名为「Focal Loss for Dense Object Detection」,利用“焦距损失”的方法,应对样本不均衡的问题,从而大幅度提升了物体检测效果,以下是雷锋网 AI 科技评论对这篇论文的介绍。

论文内容简介
物体检测(Object detection)是计算机视觉研究领域的一项重要任务,而迄今为止表现最好的物体检测方法是由于R-CNN而流行开来的两阶段法,这种方法现在第一阶段首先生成一个包含所有物体、过滤了大多数没有物体的背景区域的稀疏侯选集合,然后在第二阶段重新判别所有的候选点,把它们明确地分为前景类别以及背景。R-CNN的运用就是在两阶段法中用一个卷积网络作为第二阶段的分类器,取得了精度的大幅度进步。在多年的改进中,R-CNN也经历了许多升级,速度和准确率都有继续的提升。

另一种物体检测方法是单阶段法,以近期的 SSD 和 YOLO 为代表。它们的好处是速度有很大提升,代价是牺牲了精度;SSD的识别准确率要低10%~20%,YOLO 则更加注重速度,准确率的牺牲更大。如下图中字母的位置就是不同的网络在准确率和推理时间取得的平衡。近期的研究也显示出,如果想要加速两阶段法的网络,降低输入图像的分辨率即可达到很好的效果,但是想要提升单阶段方法的准确率的话,很高的计算开销也收效甚微,表现改善陷入了困境。


image

而图中的两条线则是这篇论文中提出的模型的表现。作者们的目的是让单阶段方法也有很高的准确率。那么他们的最终结果 RetinaNet,分别在同样的推理时间下,比所有现有模型都取得了更高的准确率。而且根据不同的网络大小也可以在速度和准确率之间取得不同的平衡。效果可谓是惊人地好。

据雷锋网 AI 科技评论了解,研究员们在探究单阶段网络准确率表现不佳的状况时,发现在密集检测器(Dense detectors)训练期间遇到了极端的前景-背景类别不平衡(Extreme foreground-background class imbalance)是一个重要原因。比如SSD中,检测器需要在每张图像中评价一万个到十万个候选位置,然而其中只有很少的点真的含有目标物体。这就导致了训练效率低下和简单的负面样本引发整个模型表现下降的问题。

image

所以,研究员们提出了通过重塑标准交叉熵损失来解决这一类不平衡问题。他们的想法是降低简单的负面样本所占的权重,所以他们提出的焦点损失(Focal Loss)方法将训练集中在一系列难点上,并且防止了大量的简单负面例子在训练过程中阻碍探测器学习。如上图,参数 γ 的值选择得越大,模型就会对已经得到了很好的分类的样本忽略得越多,越专注于难的样本的学习。这样的机制就让他们的检测器在密集对象检测这样的真实正面样本比例很低的情况下取得了很高的准确率。

由于论文作者中有 ResNet 提出者何恺明博士的名字,我们也不意外地发现,ResNet 的成果在 RetinaNet 中得到了运用。ResNet 的部分高水平地提取图像中的特征,而在附加网络中实现了样本不平衡的调节。

image

图一,上图展示了单阶段网络RetinaNet的架构。该架构在前馈ResNet架构(a)顶部使用特征金字塔网络(Feature Pyramid Network, FPN)骨架,以生成更加丰富和多尺度的卷积特征金字塔(b)。RetinaNet在后面还附加了两个子网,一个是用于分类的锚盒(Anchor boxes)(c),另一个则是用于实现锚盒到Ground-truth物体盒之间的回归(d)。该神经网络被有意设计成这种比较简单的形式,这样使得这项工作的精力能够集中于焦点损失(Focal loss)函数上。该焦点损失函数消除了单阶段检测器与最新的两阶段检测器之间的准确率差距,并且运行速度还更加快。

根据 RetinaNet 中使用的 ResNet 网络大小不同,形成了 RetinaNet-101 和 RetinaNet-50,两个模型在大小为500、600、700、800的图像上的表现就绘制出了文章开头这张性能/时间对比图中的两条线。而这两条线也就一起描绘出了现有方法的表现上限。


image


对于应对样本不平衡问题的关键方法“焦距损失”,作者们在论文中还提出了两种不同的表现形式,都起到了很好的效果。更多模型细节可以查看原论文,论文地址:https://arxiv.org/abs/1708.02002

雷锋网(公众号:雷锋网) AI 科技评论编译。
本文作者:隔壁王大喵
本文转自雷锋网禁止二次转载,原文链接

目录
相关文章
|
9月前
|
机器学习/深度学习 算法 计算机视觉
RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
147 1
RT-DETR改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
|
11月前
|
自然语言处理 供应链 数据可视化
跨境电商团队如何管理远程项目?选择看板工具时需要考虑的关键因素
随着跨境电商的迅速发展,全球化带来了巨大商机,但也带来了跨时区、语言和文化差异等协作挑战。为了提高远程协作效率,本文推荐了五款适合跨境电商团队使用的看板工具:板栗看板、Trello、Asana、ClickUp 和 Monday.com。这些工具通过可视化的任务管理和进度追踪,帮助团队高效协作、确保信息一致性和任务顺利完成。
跨境电商团队如何管理远程项目?选择看板工具时需要考虑的关键因素
|
API
在钉钉中,如何通过API接口实现OA审批和企业业务系统打通?
在钉钉中,如何通过API接口实现OA审批和企业业务系统打通?
974 1
|
SQL 关系型数据库 MySQL
Python中Pymysql库的常见用法和代码示例
`pymysql` 是一个用于连接 MySQL 数据库的 Python 库,支持 SQL 查询的执行和结果处理。通过 `pip install pymysql` 安装后,可使用 `connect()` 方法建立连接,`cursor()` 创建游标执行查询,包括数据的增删改查,并通过 `commit()` 和 `rollback()` 管理事务,最后需关闭游标和连接以释放资源。
576 0
|
机器学习/深度学习 计算机视觉 异构计算
【保姆级教程|YOLOv8改进】【4】添加双层路由注意力机制:BiLevelRoutingAttention,性能和效率十分不错
【保姆级教程|YOLOv8改进】【4】添加双层路由注意力机制:BiLevelRoutingAttention,性能和效率十分不错
|
机器学习/深度学习
【保姆级教程|YOLOv8改进】【7】多尺度空洞注意力(MSDA),DilateFormer实现暴力涨点
【保姆级教程|YOLOv8改进】【7】多尺度空洞注意力(MSDA),DilateFormer实现暴力涨点
|
jenkins 持续交付 网络安全
jenkins设置凭证拉取私有项目
jenkins设置凭证拉取私有项目
335 0
|
弹性计算 开发框架 运维
阿里云无影云桌面-桌面即服务的架构演进
无影是终端用户计算产品线,由云桌面、云应用、云数据、终端等共同组成。无影云桌面,在架构上,也经历了几次大的架构调整和升级。无影云桌面是一个Desktop As A Service产品。
3747 3
阿里云无影云桌面-桌面即服务的架构演进
|
弹性计算 固态存储 大数据
阿里云2核4G配置云服务器最新收费标准及新老用户优惠价格整理与分享
阿里云2核4G4M轻量应用服务器297元一年,阿里云2核4G配置云服务器最新收费标准及新老用户优惠价格整理与分享
352 0