玩转水平集 | 弱监督实例分割新SOTA!(ECCV2022)

简介: 全监督学习需要大量的标签数据,对分割任务而言,人工标注十分昂贵,因此基于框的弱监督实例分割获得了广泛的关注。本文提出一种新的single-shot框监督实例分割方法,将水平集(level-set)与CNN巧妙地结合起来。具体来说,模型以端到端的方式通过基于连续Chan-Vese能量的函数迭代地学习一系列水平集。本文基于SOLOv2上实现弱监督实例分割。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



摘要



全监督学习需要大量的标签数据,对分割任务而言,人工标注十分昂贵,因此基于框的弱监督实例分割获得了广泛的关注。本文提出一种新的single-shot框监督实例分割方法,将水平集(level-set)与CNN巧妙地结合起来。具体来说,模型以端到端的方式通过基于连续Chan-Vese能量的函数迭代地学习一系列水平集。本文基于SOLOv2上实现弱监督实例分割。


方法


640.png


算法的整体框架如上图所示。具体来说,基于SOLOv2[48]按位置动态分割目标并预测全图大小的实例Mask,为了促进框监督实例分割,本文将每个实例Mask视为其对应目标的水平集函数 φ。此外,本文利用输入图像和深层特征作为输入来进化水平集,其中使用框投影函数来鼓励网络在每一步自动估计初始水平集 φ0。每个实例的水平集都在框内迭代优化。


图像分割中的水平集模型


首先简单回顾下水平集方法[7, 36, 45],其将图像分割表述为一个连续的能量最小化问题, 在Mumford-Shah水平集模型 [36],给定图像的分割是通过找到参数轮廓来获得的,该轮廓将图像平面划分为N个不相交区域,Mumford-Shah能量泛函如下所示:


640.png


Chan和Vese[7]后来将 Mumford-Shah泛函简化为变分水平集,目前已经比较成熟[31, 34, 46, 52]。具体可以如下推导:


640.png


框监督实例分割


本文提出的方法利用基于Chan-Vese 能量模型[7]的水平集演化,仅使用目标框来实现高质量的实例分割。目标框内的水平集演化给定输入图像,目标是通过在边界框内隐式演化水平集来预测目标的边界。SOLOv2将图像划分为S×S个网格,每个网格最多预测一个H×W大小的实例。本文将目标框内的每个正样本视为水平集 φ(x, y),其对应的输入图像 I(x, y) 的像素空间称为 Ω,即 Ω ∈ B。C 是分割边界,其将目标框区域划分为两个不相交的区域,即前景目标和背景。


为了获得每个实例的准确边界,本文通过最小化以下能量函数来学习一系列水平集 φ(x, y):


640.png


与传统的Heaviside函数[7] 不同,sigmoid函数更加平滑,可以更好地表达预测实例的特征,提高训练过程中水平集演化的收敛性。c1、c2定义如下:


640.png


能量函数F在训练期间可以使用梯度反向传播进行:

640.png


上述项的最小化可以看作是沿着能量函数下降的隐式曲线演化。实例的最优边界 C 是通过迭代拟合 φi 来最小化能量 F 得到的,如下所示:


640.png


输入数据项:输入图像代表了基本的低级特征,包括形状、颜色、图像强度等。然而,这些低级特征通常会随着光照变化、不同的材料和运动模糊而变化,使得水平集演化的鲁棒性降低。除了归一化图像之外,本文还考虑嵌入身侧特征以获取更稳健的结果。为此,本文使用SOLOv2中FPN输出的所有特征进一步提取高阶特征。此外,提取后的高阶特征经过tree filter[27, 41]进行增强,其利用最小生成树来建模长期依赖关系并保留目标结构。水平集初始化:传统水平集方法对初始化很敏感。本文使用框投影函数[44]以鼓励模型在每一步自动生成初始水平集 φ0 的粗略估计。即将GT投影至x轴和y轴并计算投影差异。


640.png


训练和推理


损失函数:损失函数同SOLOv2一致,包含两项:分类损失和实例损失:


640.png


其中分类损失为Focal Loss,实例损失如下:


640.png


推理:水平集的进化只用于训练阶段,推理时不需要,因此与原始SOLOv2相同。


实验结果



COCO测试集结果如下:

640.png

Pascal VOC验证集结果如下:

640.png

可视化:


640.png



相关文章
|
3月前
|
机器学习/深度学习 编解码 定位技术
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
|
3月前
【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
57 0
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
CVPR 2023 | AdaAD: 通过自适应对抗蒸馏提高轻量级模型的鲁棒性
CVPR 2023 | AdaAD: 通过自适应对抗蒸馏提高轻量级模型的鲁棒性
61 0
|
3月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICCV2019 - 基于特征加权和增强的小样本分割
【论文速递】ICCV2019 - 基于特征加权和增强的小样本分割
18 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统
基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统
基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统
|
8月前
|
机器学习/深度学习 编解码 自然语言处理
【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。
161 0
|
11月前
|
人工智能 数据可视化 计算机视觉
AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA
AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA
119 0
|
11月前
DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索
DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索
128 0
|
11月前
|
机器学习/深度学习 编解码 语音技术
视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA
视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA
216 0
|
11月前
|
机器学习/深度学习 存储 算法
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA