最近在对比语言图像预训练(CLIP)方面的进步表明,通过将视觉表示与目标文本嵌入在图像层面上,CLIP在零样本分类方面具有强大的能力。然而,在密集预测任务中,CLIP往往难以在图像内部定位视觉特征,并且无法给出准确的像素级预测,这阻止了它成为通用视觉基础模型的功能。
在这项工作中,作者的目标是通过对预训练模型的最小修改来增强CLIP在语义分割方面的潜力。通过重新思考自注意力机制,作者惊人地发现,CLIP可以通过引入一种新的关联自注意力(CSA)机制来适应密集预测任务。具体来说,作者用作者的CSA模块替换CLIP视觉编码器最后层的传统自注意力块,并重新使用其预训练的 Query 、键和值投影矩阵,从而实现了CLIP的零样本语义分割的训练免费适应方法。
大量实验表明,CSA的优势:作者在本文中强调的八个语义分割基准的平均零样本mIoU达到38.2%,显著优于现有最佳结果的33.9%和原始CLIP的14.1%。
1 Introduction
在大规模基础模型的时代,经过大规模预训练后,对各种下游任务进行最小调整已成为迁移学习的新范式。然而,与自然语言处理领域基础模型的巨大成功不同,大多数视觉模型在各种下游任务中的零样本迁移学习能力尚无法达到可比水平。通过引入语言监督并在网络规模的数据集上进行学习,对比语言图像预训练(CLIP)模型能够将视觉表示泛化到开放词汇推理,并展现出惊人的零样本分类结果,然而,在更复杂的任务,如语义分割方面,这种能力仍然非常有限。
具体来说,CLIP 通过将图像级别的表示与一系列目标文本嵌入进行匹配,实现零样本分类,在配合适当的提示策略的情况下,在ImageNet上可以达到超过70%的测试准确率。然而,将这种推理协议直接迁移到语义分割任务上,往往无法得到理想的结果。
例如,当配备ViT-Base/16编码器并处理224224分辨率的输入图像时,CLIP可以得到1414的密集特征图;如果仅将这种patch级别的表示与文本嵌入关联,CLIP在ADE20k上的mIoU仅为3.1%,在COCO-Stuff上的mIoU仅为5.7%。考虑到这两个基准上的监督对应物通常可以产生约40%的mIoU,这个结果实际上不可比。因此,CLIP仍然需要非常仔细的微调和对域的适应性来处理下游的密集预测任务。
在这项工作中,作者研究了CLIP在密集预测方面的潜力,并发现CLIP的弱监督是否可以通过最小的下游适应性来为各种视觉任务带来好处。作者从定性分析开始。如图1所示,作者在COCO或野外的六个样本图像上进行了简单的开放词汇语义分割实验,其中,原始CLIP模型通常在密集预测方面出现错误,并产生噪声分割掩膜(左下角为每组三元组)。
然而,尽管CLIP在语义分割方面的表现不佳,但作者发现,CLIP实际上能够大致识别图像中出现的事物,但错误地定位它们。例如,在图1的第五个示例中,作者设置了10个目标类别,包括_flamingo_,_water_,_land_,以及_sky_,_building_和_person_等干扰项,但尽管CLIP准确地获得了正确的类别,如_water_和_flamingo_,但它预测了相反的定位(即,预测_water_为火烈鸟,_flamingo_为水和陆地)。
这项定性研究暗示,CLIP的分割性能不佳是由于patch表示的空间对齐错误,而不是在提取密集视觉特征方面的失败。这个观察使作者怀疑问题出在CLIP的自注意力模块上,因为它们负责安排空间信息。如图2所示,作者说明了CLIP自注意力模式的几个示例,其中每个图都代表图像中特定点(用不同颜色 Token )的注意力分数。如所示,CLIP的注意力图可以反映主要物体的形状,但在图像中的许多不同源点之间看起来非常相似。这表明CLIP学习的是_空间不变的_视觉特征,这意味着局部特征在图像中的空间位置上通常是恒定的,并且模型专注于整体视觉表示。
然而,在密集预测任务,如语义分割中,作者实际上需要的是_空间相关的_特征,这意味着局部表示应根据其在图像中的空间位置相应地变化。为此,作者重新思考自注意力的目的,并引入关联的自注意(CSA),这是一种新的自注意力机制,有助于生成协变量视觉特征。具体来说,与原始自注意力使用两个投影矩阵(即 Query 和键)确定注意力分数不同,作者的CSA模块只对输入进行一次投影,以找到视觉 Token 之间的成对相关性,这鼓励每个局部 Token 关注自身以及与其具有相似信息的位置。
令人惊讶的是,作者发现这种改变后,作者的CSA机制对于将CLIP模型适应到密集预测任务方面非常有效。具体来说,作者通过在CLIP视觉编码器中的原始自注意力块处使用CSA模块,开发出了作者的新方法SCLIP(Segmentation-adapted CLIP模型)。值得注意的是,CSA模块对其投影权重不敏感,因此作者可以简单地重用CLIP中原始自注意力的预训练参数,从而使得SCLIP成为一个无需调整的语义分割方法,该方法使用独立的CLIP模型。
作者对SCLIP模型的实证研究表明,其具有显著的有效性,并产生令人印象深刻的定量和定性结果:作者在八个语义分割基准(如PASCAL Context和COCO-Stuff)上的平均mIoU达到了38.2%,显著优于现有的最先进方法,如MaskCLIP(30.3%)、GroupViT(30.7%)和TCL(33.9%)等,这些方法支持零样本和开放词汇语义分割。如图1所示,作者还展示了SCLIP为COCO数据集中的图像和野外图像获得的定性结果,其中作者的模型产生了非常清晰和准确的分割掩码,特别是对于高分辨率输入(例如,两只狗坐在船上)。
这项工作的主要贡献可以总结如下:
- 首先,作者识别出原始CLIP在语义分割方面的失败原因,并通过引入一种新的关联自注意力(CSA)机制来解决这些问题,而大量的实验结果证明了显著的效果。
- 其次,作者的SCLIP方法在未进行微调且未添加任何额外参数的情况下,超过了现有的方法,这验证了视觉语言模型在密集预测任务中的良好可转移性。
- 此外,在本工作中,作者对CLIP进行的最小修改在语义分割方面取得了非常显著的改进,这为作者提供了一个重要数据点,即弱监督预训练范式,在语言指导下,可以作为支持各种下游任务的大量视觉基础模型。
2 Related Work
可迁移的视觉基础模型。自监督预训练最近在学习可迁移的视觉表示方面展示了良好的潜力。使用重建目标,如遮挡图像建模或区分目标,如对比学习预训练的模型,在有足够的下游训练数据时,具有强大的适应各种视觉任务的能力。同样,允许高分辨率条件图像生成的去噪扩散模型和促进语义无关图像分割的Segment Anything模型也可以作为具有可迁移视觉特征的基础模型。
当与语言指导相结合时,这样的基础模型可以真正强大,允许进行开放词汇和零样本转移学习,以应对下游视觉任务。一个代表性的模型是CLIP,它通过对比预训练将视觉和文本特征对齐。基于这一点,一系列后续工作扩展了其规模,应用,以及下游推理协议。
零样本语义分割。为了充分利用视觉语言模型的零样本和开放词汇视觉推理方面的先进性,已经开始了大量后续工作,以研究它们在密集预测任务中的应用。例如,GroupViT将组 Token 引入其视觉编码器中,并使用语言指导进行预训练,从而得到了一个适用于语义分割任务的开放词汇模型。
此外,MaskCLIP对视觉 Transformer 进行简单的修改,使得CLIP可以实现粗糙的特征局部化。语言引导分割的研究不断得到探索。
自注意力用于密集视觉特征。一系列相关研究已经证明,使用各种自注意力机制可以增强视觉 Transformer 在提取密集视觉特征方面的潜力。例如,与CLIP和传统视觉 Transformer 中使用的常规自注意力不同,局部注意力机制将空间特征聚合限制在局部窗口内,以鼓励细粒度特征。MaskCLIP在其最后 Transformer 层中丢弃了 Query 和Key向量的处理,这也可以被视为窗口大小设置为1的局部注意力的一种特定情况。
此外,一些分割或检测导向的 Transformer 模型利用交叉注意力将局部视觉特征映射到语义 Token。此外,配备了轴向注意力或可变形注意力的模型在密集预测方面具有强大的能力。
3 Method
作者方法的核心概念是将CLIP范式中学习的空间不变的视觉特征通过架构修改转换为协变量表示,从而使CLIP模型能够泛化到密集预测任务。如作者在第1节中讨论的,空间不变的特征表示模型在图像内的不同位置产生相似的表示,并且它们倾向于分享整体信息(见图2),这在图像级别的任务,如分类,是有利的。相比之下,空间协变特征鼓励每个局部 Token 有效地表示其对应位置的视觉信息,这对于像素级别的密集预测任务,如语义分割,是有利的。
作者通过引入一种新的自注意力机制来发展作者的方法SCLIP(分割适应CLIP模型),因为它可以重新组织空间信息。下面是详细信息。
Re-Visiting the Original Self-Attention
在传统的视觉 Transformer中,每个大小为的输入图像最初被划分为一个或多个非重叠的 Patch ,每个 Patch 随后被投影到一个向量化的特征中,其中表示模型的特征空间维度。视觉 Transformer 中的每一层接收一个视觉 Token 集合作为输入,其中表示类别 Token ,表示图像 Patch 的总数(每个大小为),每个局部视觉 Token 与输入图像中不同的位置相关联。
作者在图3(左)中说明了传统的自注意力块的流程。形式上,注意力图是通过以下方式计算的:
其中,是来自预训练的投影参数。注意,在这里作者只考虑单头自注意力,以便于描述。在CLIP中,视觉编码器被预训练以用单个特征向量表示每个输入图像,这促使自注意力块提取整体视觉表示,从而有助于空间不变的特征。如上所述,这些不变特征阻止CLIP执行密集预测任务,因此有必要对其自注意力模块进行修改,以允许语义分割。
一个非常直接的方法是只让每个视觉 Token 只关注自己,即,将注意力图设置为一个与输入相同的相同矩阵,而不考虑输入。这样,每个局部视觉 Token 只接收来自其对应位置的信息,因此视觉特征得到很好的局部化。
在实践中,MaskCLIP在CLIP视觉编码器的最后一层使用这个注意力图,并在语义分割方面获得了非平凡的改进。例如,它将CLIP在COCO-Stuff上的mIoU从5.7%提高到16.7%。然而,这种方法严格限制了局部 Token 的接收范围,因此模型可能很容易过于关注低级特征,从而产生噪声密集预测。
Correlative Self-Attention
为了促进空间协变量特征,作者引入了关联自注意力(CSA)机制,该机制通过计算局部 Token 之间的成对相关性来计算注意力分数,整个流水线如图3所示。形式上,作者有如下计算方法:
其中,表示输入,是新引入的投影矩阵。温度系数默认为,这是根据传统自注意力设置的。这个改变使得自注意力依赖于不同位置的特征向量之间的距离,一个潜在的思想是, Token 和在投影后具有高余弦相似度,它们会为彼此分配较高的注意力分数。与传统机制相比,这种关联自注意力更适合密集预测任务,原因如下:
- 首先,在视觉 Transformer 中,特征定位可以直观地反映在矩阵的对角元素的大小上。具体来说,中的每个元素衡量了对的注意力分数,因此对角元素值较高的表示每个局部 Token 主要关注自己的位置,每个位置的视觉信息因此得到很好的局部化。这就是为什么MaskCLIP[66]工作,它在和的情况下强制。在CSA模块中,对角注意力分数也得到了增强,因为当时(假设两个向量都归一化),和之间的相关性始终达到最大值。
- 除了显著的特征定位能力外,CSA模块还充分考虑了局部 Token 之间的语义相关性,因此它可以产生稳健和光滑的密集预测结果。直观上,对于每个局部 Token ,CSA不仅赋予本身高的注意力分数,还赋予具有相似语义内容的 Token 高的注意力分数。作者在图4中可视化了这种效果,对于每个源点,只有与它具有高语义相似性的位置被赋予明显的注意力,因此每个源点对应的目标(例如,椅子和小猫)可以在注意力图中清晰地识别出来。
- 此外,CSA模块中的矩阵作为不同位置的特征之间的距离度量,因此作者的模型对这一投影层的参数不敏感,因为改变只会改变距离度量的形式。在实验中,作者发现不需要专门训练这个投影矩阵,手动分配它或者甚至使用一组随机初始化的矩阵也可以始终获得非常竞争力的结果(见第4.3节和表2详细说明)。值得注意的是,CSA对模型参数的不敏感性为在给定预训练CLIP模型后,将其适应到密集预测任务提供了良好的潜力。凭借这一优点,作者可以使用CSA开发作者的分割模型,而无需引入任何额外的参数或任何下游微调。
Segmentation-Adapted CLIP Model
为了开发作者的SCLIP方法,作者使用了一个预训练的CLIP模型,其中ViT-Base/16图像编码器作为 Backbone 。通常,当需要将CLIP适配到下游任务而不引入额外参数时,作者实际上将CLIP的最后或最后几层视为任务特定的解码头。遵循MaskCLIP,作者将CLIP图像编码器的最后 Transformer 块视为解码层来实现适应,同时保持其余组件不变。
在这个解码层中,作者用作者的CSA模块替换原始的自注意力块,并重用和作为作者的投影矩阵。形式上,作者有如下表示:
这使得作者的模型在无需训练的情况下进行自适应,因为和可以直接从CLIP中加载。
密集视觉特征的后处理 在密集预测任务中,作者通常有一个简单但非常关键的先验假设,即空间连续性,它表明在图像中,相邻的像素或 Patch 倾向于共享相似的视觉特征。这种先验知识可以通过简单地在分割掩码的标签中引入这个假设来进行完全监督训练。
然而,在CLIP类似的弱监督预训练中,没有这样的显式约束来限制密集视觉特征的空间连续性,只有输入层中添加了位置嵌入。因此,现有的零样本分割模型通常依赖于特定的后处理策略来细化或平滑他们的分割掩码(例如,PAMR用于TCL,DenseCRF用于ReCo)。
然而,作者认为这样的后处理方法不应默认使用,因为确保输出空间的连续性也是语义分割模型推理能力的组成部分。在作者的实验中,作者发现SCLIP在这方面非常健壮,不需要任何细化或平滑策略就可以产生良好的分割结果。
4 Experiments
Experiment Settings
数据集 作者在六个常用的语义分割基准上评估作者的方法,包括PASCAL VOC 2012,PASCAL Context,Cityscapes,ADE20k,COCO-Stuff和COCO-Object。考虑到背景类别,作者在PASCAL VOC和PASCAL Context上额外评估了两个变体数据集。
为了进行清晰的参考,作者将VOC21,Context60视为具有背景类的原始数据集,将VOC20,Context59视为不具有这种类别的变体。在现有的工作,如GroupViT和TCL中,它们使用大小为448的较短边,并将输入图像进行缩放,然后使用448448窗口和224步进进行滑动推理。然而,在作者的实验中,作者发现使用较小的输入大小和更密集的滑动步进可以获得略高的结果(例如,在PASCAL Context上提高了0.2%的mIoU)。
具体来说,作者将输入图像缩小到短边为336,并在224224窗口和112步进上进行滑动推理。这种协议引入了与GroupViT相似的计算水平,但更适合CLIP的原始输入大小(例如,ViT-Base的224)。此外,它也友好于并行计算。对于Cityscapes,作者将图像缩小到560的较短边,因为其原始图像具有特别高的分辨率。表4中提供了图像预处理协议的详细比较。
Baseline CLIP是作者的直接 Baseline ,用于比较原始自注意力和作者的CSA机制在密集预测性能上的差异。具体来说,作者首先从CLIP的语言编码器中提取目标类别的文本嵌入,然后直接将其与CLIP视觉编码器的密集特征对齐。作者还考虑从CLIP或类似的视觉语言模型衍生出的开放词汇语义分割模型作为更强的 Baseline ,包括MaskCLIP,ReCo和TCL。对于这些方法,作者报告了它们基于作者重新实现的结果和他们现有工作中的结果中的较大值。作者还与最近的 Baseline 进行比较,如SegCLIP和OVSegmentor,作者直接从它们原始论文中的结果中取值。
遵循TCL的方法,作者不允许像Dense CRF这样具有很高计算成本的后期处理策略,并且不考虑除了CLIP之外的其他预训练模型良好的 Baseline 。作者默认丢弃分割掩码的后期处理技术Pixel-Adaptive Mask Refinement (PAMR),因为它也引入了强烈的计算和可能会轻易地掩盖分割模型的固有推理能力。
Main Results
Table 1总结了各种零样本语义分割模型的比较,其中作者的SCLIP在八个评估基准上始终实现最佳性能,在PASCAL Context (34.2%), Cityscapes (32.2%)和ADE20k (16.1%)等指标上具有显著的领先优势。总体而言,SCLIP的平均性能为38.0%,明显高于第二好的平均性能TCL的33.9%。这表明SCLIP相对于现有方法提供了可靠的改进,并证明了新引入的关联自注意力机制的有效性。除了具有竞争力的 Baseline 方法外,作者还报告了原始CLIP模型在其图像编码器中使用原始自注意力的评估结果。作为结果,这种简单的协议无法获得与其他 Baseline 方法相当的性能,表明直接将原始自注意力直接转移到密集预测任务是不兼容的。
Table 1中还报告了额外使用PAMR后处理层的结果,其中几乎所有方法都可以从中受益,获得类似的改进水平。例如,作者的SCLIP在八个数据集上的平均mIoU提高了1.9%,而GroupViT和TCL的 Baseline 分别提高了1.4%和3.3%。与TCL中MaskCLIP在使用PAMR模块后出现预测性能下降的情况相反,作者发现,通过简单地寻找合适的PAMR超参数,它可以实现与原始版本相比3.5%的mIoU提高。作者建议在开放词汇分割的默认设置中禁用这种细化策略,因为它计算上非常耗时,而转向一些轻量级的平滑方法进行预测。
Ablation Study
在关联自注意力(CSA)模块中,作者想找出选择不同类型的投影矩阵对作者的关联自注意力块的影响。如前所述,CSA模块理论上接受任何非零投影作为其,而作者默认将CLIP原始自注意力的和进行集成(如方程3所示)。在这里,作者比较了四种更变体来证明其鲁棒性。
Identity Projection:作者直接通过输入来测量成对相关性,从而得到一个非常简单的协议。请注意,这与直接强制成为一个单位矩阵的MaskCLIP不等同。
随机初始化投影矩阵的集成:作者随机初始化多个投影矩阵作为,然后将它们对应的注意力分数进行平均。形式上,作者有。
单或投影:作者将单或作为来分析结合两者的影响。
学习投影:为了充分利用CSA的潜力,作者从每个数据集的训练划分中特别学习一个投影矩阵。由于模型具有很少的可学习参数,因此即使使用很少的训练样本(作者使用每个数据集64个样本),模型也能很好地收敛。
结果汇总到Table 2中。总体而言,三种数据集上各种模式的性能差异很小,展示了作者提出的CSA机制的鲁棒性。特别是在只有一个矩阵随机初始化时,仍然可以获得相当不错的结果,例如在PASCAL VOC数据集上具有57.1%的mIoU。此外,虽然学习投影模式取得了最高性能,但相对于默认的训练无结构,改进幅度并不大。考虑到这种适中的收益,将大量努力投入到域内训练学习投影可能并不值得推荐。除学习投影外,作者的默认方法始终获得最佳结果。这表明提出的CSA与CLIP预训练投影参数具有高度兼容性。这种兼容性证明了当与CLIP的预训练投影参数相结合时,CSA的有效性。
也有一些潜在的方法可以启用CLIP定位视觉特征。例如,作者可以通过简单地调整CLIP视觉编码器的温度参数来锐化注意力图,从而防止模型过度关注全局信息,并使特征集中在少数特定位置。作者称这种方法为注意力锐化,并将其与作者的方法进行比较。类似地,通过使用局部注意力技术,即只计算给定窗口内的注意力分数,作者可以帮助CLIP模型将视觉特征 Anchor 定到其对应的位置。然而,这种方法以牺牲视觉 Transformer 模型固有的全局感受野为代价,阻止模型在域外 Token 的辅助下进行推理。
值得注意的是,当窗口大小设置为1时,MaskCLIP算法可以被视为局部注意力的特殊情况。作者还观察到实际上视觉 Transformer 在早期阶段关注相对较小的局部区域。因此,CLIP特征定位的一种可能方法是直接借用早期阶段的注意力图,而不是解码层的那些。
表3总结了三种替代策略在特定参数调整时可能对基准CLIP模型产生相当大的改进,但与作者的方法相比仍然明显不足。具体来说,注意力锐化方法在大多数情况下无法获得性能改进,仅在时在PASCAL VOC上实现了2.9%的mIoU增益。当作者应用局部注意力,窗口大小为3时,评估性能 promising,几乎与MaskCLIP在三个不同数据集上的表现平行。此外,直接从早期阶段借用注意力图的启发式方法显示相对更好的结果,在PASCAL Context59上的mIoU为26.8%,在COCO-Stuff上的mIoU为16.8%,甚至超过了MaskCLIP。
这项消融研究表明,仅仅关注局部视觉特征并不能有效地将弱监督预训练模型(如CLIP)转换为语义分割挑战。相比之下,作者的方法,结合了一个考虑局部特征与整体语义上下文关系的关联自注意力机制,证明在各种不同 Scale 的视觉推理任务中更加适应。
正如第4.1节中所述,作者采用了一种新的预处理协议,将每个输入图像的较短边固定为336而不是448,并在比先前方法更小的窗口大小224和步进112的条件下进行滑动推理。为了分析这种协议的影响,作者在表4中详细比较了不同的预处理策略。
正如所展示的,一般来说,较大的图像尺寸与较小的窗口和步进通常会导致更好的性能,尽管它们带来了更高的Flops计算成本。具体而言,使用过小的图像尺寸会导致大量信息损失和性能显著下降,正如模式#1所显示的,其mIoU仅为56.5%。较大的图像尺寸可以提高预测精度(如模式#4所示),但与默认设置(模式#2)相比,改进并不显著。
与现有工作(模式#5)的默认设置相比,作者提出的协议在等量计算的情况下实现了更好的结果。这可能归因于两个因素:首先,CLIP在没有微调的情况下,其固有的224224像素输入大小表现更好;其次,作者的设置减少了窗口步进,导致输出更平滑。此外,即使使用相同的预处理方法(模式#5),作者的SCLIP也优于现有的(SoTA)模型,在PASCAL VOC上的mIoU达到58.9%,而TCL的51.2%。
5 Conclusion
在这项工作中,作者提出通过引入一种新的关联自注意力机制来增强CLIP在密集预测任务方面的潜力,该机制在作者的方法中作为特定任务的解码头,用于语义分割。这种适应性显著提高了其在密集视觉语言推理方面的性能,在本文中评估的八个基准上的平均零样本mIoU达到38.2%,远远超过现有的最先进模型。
作者证明了现有CLIP模型的微调可以带来显著的改进。跨各种基准的零样本mIoU得分显著增加,证明了作者的方法的有效性。值得注意的是,作者的模型在不需要任何微调或涉及额外参数的情况下超过了现有的 Baseline 方法,这强调了CLIP类弱监督预训练范式的强大潜力,可以创建各种视觉基础模型。
Appendix: Additional Visualization Results
在这里,作者展示了在PASCAL VOC(图5)和COCO-Object(图6)上的更多定性结果,并与原始CLIP和MaskCLIP进行了比较。如图所示,尽管作者的SCLIP模型在大多数情况下产生了非常清晰的分割掩码,但原始CLIP模型在图像内的主要目标定位不准确,而MaskCLIP通常预测出明显的噪声和许多不连贯的分割。
具体来说,在类别较少的数据集如PASCAL VOC(见图5)中,SCLIP能够检测到非常详细的语义特征。例如,在第一个示例中,作者的模型准确地分割了羊的腿,尽管它们在图像中只占很小一部分;在第四个示例中,作者的分割掩码清楚地显示了花盆中的树枝形状,虽然比真实值稍粗糙,但显著优于MaskCLIP的结果,它将花盆周围的区域与背景划分为同一类别。这些观察结果证明了作者的CSA模块的惊人有效性。
语义分割类别更多(例如,COCO-Object的81个类别)对于零样本模型可能非常具有挑战性。如图6所示,如果没有考虑patch级别的视觉 Token 之间的语义相关性,MaskCLIP的分割结果中会出现许多噪声预测(例如,第一和第三个示例)。值得注意的是,这个问题不能简单地通过利用额外的精炼或阈值策略来解决,因为这样可能会导致模型将图像分割为一个或非常少的类别,从而降低其详细视觉特征的推理能力。此外,还有一些有趣的观察,例如在第四个示例中,作者的鸟的分割掩码跳过了它站立的长栅栏,而真实值并没有;在第六个示例中,左边的SUV被标注为“bus”,而作者的模型将其分类为“car”。
参考
[1]. SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference.