玩转水平集 | 弱监督实例分割新SOTA!(ECCV2022)

简介: 全监督学习需要大量的标签数据,对分割任务而言,人工标注十分昂贵,因此基于框的弱监督实例分割获得了广泛的关注。本文提出一种新的single-shot框监督实例分割方法,将水平集(level-set)与CNN巧妙地结合起来。具体来说,模型以端到端的方式通过基于连续Chan-Vese能量的函数迭代地学习一系列水平集。本文基于SOLOv2上实现弱监督实例分割。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



摘要



全监督学习需要大量的标签数据,对分割任务而言,人工标注十分昂贵,因此基于框的弱监督实例分割获得了广泛的关注。本文提出一种新的single-shot框监督实例分割方法,将水平集(level-set)与CNN巧妙地结合起来。具体来说,模型以端到端的方式通过基于连续Chan-Vese能量的函数迭代地学习一系列水平集。本文基于SOLOv2上实现弱监督实例分割。


方法


640.png


算法的整体框架如上图所示。具体来说,基于SOLOv2[48]按位置动态分割目标并预测全图大小的实例Mask,为了促进框监督实例分割,本文将每个实例Mask视为其对应目标的水平集函数 φ。此外,本文利用输入图像和深层特征作为输入来进化水平集,其中使用框投影函数来鼓励网络在每一步自动估计初始水平集 φ0。每个实例的水平集都在框内迭代优化。


图像分割中的水平集模型


首先简单回顾下水平集方法[7, 36, 45],其将图像分割表述为一个连续的能量最小化问题, 在Mumford-Shah水平集模型 [36],给定图像的分割是通过找到参数轮廓来获得的,该轮廓将图像平面划分为N个不相交区域,Mumford-Shah能量泛函如下所示:


640.png


Chan和Vese[7]后来将 Mumford-Shah泛函简化为变分水平集,目前已经比较成熟[31, 34, 46, 52]。具体可以如下推导:


640.png


框监督实例分割


本文提出的方法利用基于Chan-Vese 能量模型[7]的水平集演化,仅使用目标框来实现高质量的实例分割。目标框内的水平集演化给定输入图像,目标是通过在边界框内隐式演化水平集来预测目标的边界。SOLOv2将图像划分为S×S个网格,每个网格最多预测一个H×W大小的实例。本文将目标框内的每个正样本视为水平集 φ(x, y),其对应的输入图像 I(x, y) 的像素空间称为 Ω,即 Ω ∈ B。C 是分割边界,其将目标框区域划分为两个不相交的区域,即前景目标和背景。


为了获得每个实例的准确边界,本文通过最小化以下能量函数来学习一系列水平集 φ(x, y):


640.png


与传统的Heaviside函数[7] 不同,sigmoid函数更加平滑,可以更好地表达预测实例的特征,提高训练过程中水平集演化的收敛性。c1、c2定义如下:


640.png


能量函数F在训练期间可以使用梯度反向传播进行:

640.png


上述项的最小化可以看作是沿着能量函数下降的隐式曲线演化。实例的最优边界 C 是通过迭代拟合 φi 来最小化能量 F 得到的,如下所示:


640.png


输入数据项:输入图像代表了基本的低级特征,包括形状、颜色、图像强度等。然而,这些低级特征通常会随着光照变化、不同的材料和运动模糊而变化,使得水平集演化的鲁棒性降低。除了归一化图像之外,本文还考虑嵌入身侧特征以获取更稳健的结果。为此,本文使用SOLOv2中FPN输出的所有特征进一步提取高阶特征。此外,提取后的高阶特征经过tree filter[27, 41]进行增强,其利用最小生成树来建模长期依赖关系并保留目标结构。水平集初始化:传统水平集方法对初始化很敏感。本文使用框投影函数[44]以鼓励模型在每一步自动生成初始水平集 φ0 的粗略估计。即将GT投影至x轴和y轴并计算投影差异。


640.png


训练和推理


损失函数:损失函数同SOLOv2一致,包含两项:分类损失和实例损失:


640.png


其中分类损失为Focal Loss,实例损失如下:


640.png


推理:水平集的进化只用于训练阶段,推理时不需要,因此与原始SOLOv2相同。


实验结果



COCO测试集结果如下:

640.png

Pascal VOC验证集结果如下:

640.png

可视化:


640.png



相关文章
|
2月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
82 7
|
5月前
|
机器学习/深度学习 人工智能
可解释性研究新突破:OpenAI成功训练1600万个特征的自动编码器
【6月更文挑战第13天】OpenAI团队在可解释性研究上取得进展,训练出拥有1600万特征的自动编码器来解析GPT-4。此模型旨在揭示语言模型的工作原理,提高AI透明度。自动编码器从低维度特征空间重建输入数据,研究通过稀疏特征增强可解释性。虽然规模扩大带来解释性提升,但计算资源需求大,且评估指标的全面性仍受质疑。[论文链接](https://cdn.openai.com/papers/sparse-autoencoders.pdf)
76 1
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICCV2019 - 基于特征加权和增强的小样本分割
【论文速递】ICCV2019 - 基于特征加权和增强的小样本分割
54 0
|
自然语言处理 算法 搜索推荐
基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统
基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统
基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统
|
机器学习/深度学习 编解码 自然语言处理
【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。
233 0
|
机器学习/深度学习 存储 算法
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
115 0
|
人工智能 数据可视化 计算机视觉
AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA
AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA
162 0
DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索
DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索
222 0
|
机器学习/深度学习 编解码
从单幅自然图像学习扩散模型,优于GAN,SinDiffusion实现新SOTA
从单幅自然图像学习扩散模型,优于GAN,SinDiffusion实现新SOTA
357 0
|
机器学习/深度学习 编解码 语音技术
视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA
视频生成无需GAN、VAE,谷歌用扩散模型联合训练视频、图像,实现新SOTA
246 0