CVPR 2024即将到来,清华大学与博世公司的研究团队在计算机视觉领域取得了一项令人瞩目的成果。他们在论文《Mask Grounding for Referring Image Segmentation》中提出了一种全新的实例分割网络架构——MagNet(Mask-grounded Network)。
实例分割是计算机视觉中的一项重要任务,旨在将图像中的每个对象实例进行精确的定位和分割。而其中,Referring Image Segmentation(RIS)是一个更具挑战性的任务,它要求算法能够根据自由形式的语言表达来对图像中的对象进行分割。
近年来,尽管RIS领域取得了显著的进展,但大多数最先进的方法仍然在像素和单词级别的语言-图像模态差距上存在问题。这些方法通常依赖句子级别的语言特征来进行语言-图像对齐,并且缺乏对细粒度视觉定位的明确训练监督。因此,它们在视觉特征和语言特征之间的对象级别对应关系上表现较弱。
为了解决这个问题,研究团队提出了一种名为Mask Grounding的辅助任务,该任务通过明确地教导模型学习被遮盖的文本令牌与匹配的视觉对象之间的细粒度对应关系,从而显著改善了语言特征中的视觉定位。Mask Grounding可以直接应用于先前的RIS方法,并一致地带来改进。
此外,为了全面解决模态差距问题,研究团队还设计了一个跨模态对齐损失和一个相应的对齐模块。这些添加的功能与Mask Grounding协同工作,以实现更准确的视觉-语言对齐。
通过这些技术的综合应用,研究团队提出了MagNet架构,该架构在三个关键基准(RefCOCO、RefCOCO+和G-Ref)上显著优于先前的方法,证明了该方法在解决当前RIS算法的局限性方面的有效性。
MagNet架构的提出为解决复杂场景和语言表达的实例分割问题提供了一种全新的思路。它通过Mask Grounding和跨模态对齐等技术,有效地缩小了语言-图像模态差距,提高了算法对复杂表达和多对象关系的理解能力。
然而,尽管MagNet在实验中表现出色,但仍有一些问题值得进一步研究。首先,尽管Mask Grounding能够改善视觉定位,但它可能对一些罕见或模棱两可的表达不太有效。其次,尽管MagNet在三个关键基准上取得了显著的性能提升,但在其他更复杂的场景或数据集上的表现仍有待验证。