CVPR 202：擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet-阿里云开发者社区

CVPR 202：擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

2024-05-11 208 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第10天】在CVPR 2024会议上，清华大学与博世团队推出MagNet，一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应，缩小模态差距，并结合跨模态对齐损失与模块，提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势，但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)

CVPR 2024即将到来，清华大学与博世公司的研究团队在计算机视觉领域取得了一项令人瞩目的成果。他们在论文《Mask Grounding for Referring Image Segmentation》中提出了一种全新的实例分割网络架构——MagNet（Mask-grounded Network）。

实例分割是计算机视觉中的一项重要任务，旨在将图像中的每个对象实例进行精确的定位和分割。而其中，Referring Image Segmentation（RIS）是一个更具挑战性的任务，它要求算法能够根据自由形式的语言表达来对图像中的对象进行分割。

近年来，尽管RIS领域取得了显著的进展，但大多数最先进的方法仍然在像素和单词级别的语言-图像模态差距上存在问题。这些方法通常依赖句子级别的语言特征来进行语言-图像对齐，并且缺乏对细粒度视觉定位的明确训练监督。因此，它们在视觉特征和语言特征之间的对象级别对应关系上表现较弱。

为了解决这个问题，研究团队提出了一种名为Mask Grounding的辅助任务，该任务通过明确地教导模型学习被遮盖的文本令牌与匹配的视觉对象之间的细粒度对应关系，从而显著改善了语言特征中的视觉定位。Mask Grounding可以直接应用于先前的RIS方法，并一致地带来改进。

此外，为了全面解决模态差距问题，研究团队还设计了一个跨模态对齐损失和一个相应的对齐模块。这些添加的功能与Mask Grounding协同工作，以实现更准确的视觉-语言对齐。

通过这些技术的综合应用，研究团队提出了MagNet架构，该架构在三个关键基准（RefCOCO、RefCOCO+和G-Ref）上显著优于先前的方法，证明了该方法在解决当前RIS算法的局限性方面的有效性。

MagNet架构的提出为解决复杂场景和语言表达的实例分割问题提供了一种全新的思路。它通过Mask Grounding和跨模态对齐等技术，有效地缩小了语言-图像模态差距，提高了算法对复杂表达和多对象关系的理解能力。

然而，尽管MagNet在实验中表现出色，但仍有一些问题值得进一步研究。首先，尽管Mask Grounding能够改善视觉定位，但它可能对一些罕见或模棱两可的表达不太有效。其次，尽管MagNet在三个关键基准上取得了显著的性能提升，但在其他更复杂的场景或数据集上的表现仍有待验证。

论文地址：https://arxiv.org/abs/2312.12198