【经典论文解读】YOLACT 实例分割（YOLOv5、YOLOv8实例分割的基础）-阿里云开发者社区

【经典论文解读】YOLACT 实例分割（YOLOv5、YOLOv8实例分割的基础）

2023-11-15 3784

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，1000CU*H 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

实时数仓Hologres，5000CU*H 100GB 3个月

简介： YOLACT是经典的单阶段、实时、实例分割方法，在YOLOv5和YOLOv8中的实例分割，也是基于 YOLACT实现的，有必要理解一下它的模型结构和设计思路。

前言

YOLACT是经典的单阶段、实时、实例分割方法，在YOLOv5和YOLOv8中的实例分割，也是基于 YOLACT实现的，有必要理解一下它的模型结构和设计思路。

论文：YOLACT: Real-time Instance Segmentation

开源地址：https://github.com/dbolya/yolact

YOLACT(You Only Look At CoefficienTs)

一、模型框架

它对于one-stage 单阶段模型，添加了一个mask分支（与检测分支并行），整体模型结构如下图，流程思路：

1、输入图片；

2、通过主干网络对图片，进行特征提取；

3、经过FPN特征金字塔，对不同尺寸的特征图进行融合；

4.1、检测分支，对于每个目标物体，都输出类别、边框信息（x,y,w,h）、k个mask Coefficients（mask的的置信度，取值1或-1）；

4.2、分割分支，针对当前输入图片，输出k个Prototype（mask原型图）；不同图片，输出的Prototype有差异，但数量也是k个。

5、对于每个目标物体，将k个mask Coefficients（mask的的置信度）与k个Prototype（mask原型图）进行相乘，然后将所有结果相加，得到该目标物体的实例分割结果。

二、YOLACT 主要特点

YOLACT 主要特点是将实例分割任务，划分为两个并行任务：

将实例分割任务，划分为两个并行任务；（目标检测Detect、实例分割mask 是并行计算的，这样设计的网络是单阶段的，适合YOLO系列，速度快）
在实例分割分支生成k个mask原型图（prototype masks），检测分支生成k个mask原型图的置信度（mask coefficients），然后将mask原型图与mask原型置信度进行线性组合，生成实例分割结果。
比如在一张街道场景的图片，图中有行人、车辆、建筑物、树木等，当检测分支框中的是行人，那么行人相关的mask原型图置信度高（头、身体、手、脚、随身物品等的位置、轮廓、编码位置敏感的方向等原型图），其它的类别mask原型图置信度低，这样组合形成实例分割的结果。

这里重点讲一下prototype masks

【1】YOLACT 实际上是学习了一种分布表示，在一张图片中可能有多个类别，但不同类别之间的物体共享 prototypes 的组合

在 prototype 空间

某些 prototypes 对图片空间分块，

某些 prototypes 定位实例，

某些 prototypes 检测实例廓形，

某些 prototypes 编码位置敏感的方向图(position-sensitive directional maps)等等，

这些 prototypes 的组合构成了最终的分割结果.

【2】每一个prototype mask是生成的相对于整张图片的，不是局部的