实验精析:
数据集:
使用PASCAL-5i[33]和COCO[21]的数据集进行评估。
PASCAL-5i由PASCAL VOC 2012[6]和来自SDS[12]数据集的扩展注释组成。20个类平均分为4个folds,i∈{0,1,2,3},每个fold包含5个类。参考OSLSM[33],PFENet在每次测试中随机抽取1000个query-support对。
COCO包含80个类别。参考[28],PFENet通过从80个类中拆分4个folds,每个fold包含20个类,来进行模型评估。作者考虑到COCO验证集包含40,137张图像(80个类),比PASCAL- 5 i中的图像多得多。因此,作者认为使用的1000个随机抽样的query-support对不足以在20个测试类上产生可靠的测试结果。因此,PFENet在COCO数据集每个fold的评估过程中随机采样20,000个query-support对,使得结果比在以前的工作中使用的1,000个query-support对测试更稳定。
当在一个fold上测试模型时,PFENet使用其他三个fold来训练模型进行交叉验证。取不同随机种子的5个测试结果的平均值进行比较。
实验设置:
PFENet中骨干网络采用VGG-16, ResNet-50和ResNet-101,其中VGG是原始版本,ResNet是之前工作[28],[54],[15]中使用的扩展版本。在训练过程中训练样本被随机裁剪为473 × 473的patch。因为[54]中说过mIoU比FB-IoU更合理,PFENet选择mIoU作为主要评估参数。
特征富集模块(FEM)消融实验:
PFENet首先对所提出的特征富集模块(FEM)比较了不同的尺度间交互策略。并与HRNet[44]、ASPP[4]和PPM[60]的其他特征富集设计进行了比较,还比较了最近sota的小样本分割方法PGNet[53]中使用的图注意力单元(GAU)。
尺度间四种交互方式比较:
自上而下(TD)、自下而上(BU)、自上而下+自下而上(TD+BU)和自下而上+自上而下(BU+TD)。在表4中的实验结果表明,TD和TD+BU比BU和BU+TD更能帮助FEM获得比没有(W/O)信息富集的情况下更好的结果。TD+BU模型包含的可学习参数(16.0M)比TD (10.8M)更多,但性能相当。
不同于一般的语义分割,上下文信息是取得良好性能的关键,在小样本分割中查询信息的表示和获取方式尤为重要。这些实验证明,使用更细的特征(辅助)为粗特征(主)提供额外的信息比使用粗特征(辅助)细化更细的特征(主)更有效,没有目标信息的下采样粗查询特征对提高最终预测质量的帮助较小。因为如果目标对象小规模消失,粗特征不足以在后期信息聚合阶段对query类别进行定位。设计的FEM在不同尺度上匹配query和support特征,以解决query和support样本之间的空间不一致问题。
其他尺度特征富集模块的比较:
PFENet尝试比较了PPM[60],ASPP[4],HRNet,图形注意单元(GAU)几个流行的特征富集模块。通过实验证明提出的FEM模块产生了更好的小样本分割性能,而没有垂直自顶向下信息传递(用WO标记)的模型产生的结果更差。
ASPP:ASPP的扩张率设置为{1, 6, 12, 18}并得到了接近PPM的结果。得出结论:小样本分割[53],扩张卷积的效果不如自适应平均池化。
PPM:PSPNet[60]的实验表明,空间大小为{6,3,2,1}的金字塔池化模块(PPM)具有最佳的性能。当小空间尺寸应用于FEM时,它仍然优于PPM。但是小的空间尺寸在FEM中并不是最优的,因为集合为{6,3,2,1}这样的空间尺寸的特征对于查询和支持特征的交互和融合来说太粗糙了。类似地,空间大小为{60,30,15,8,4}的模型比使用{60,30,15,8}的FEM产生更差的性能。因此,PFENet选择{60,30,15,8}作为FEM源间丰富的特征尺度。
GAU:图注意力单元GAU (Graph Attention Unit) [53]利用图注意力机制在每个尺度上建立query和support特征之间的元素到元素的对应关系。support特征像素由GAU进行加权,新的support特征是原始support特征的加权和。作者直接将FEM替换为GAU,并保留其他设置。GAU实验结果没有放入表5中,在1-shot和5-shot评估中GAU分别达到mIoU 55.4和56.1。此外还使用FEM中的尺度{60,30,15,8}(记为GAU+)来评估mIoU(1-shot 54.9,5-shot 55.4)。虽然GAU也通过自适应池化形成了金字塔结构来捕获多层次语义信息,但它忽略了自适应地提供从其他尺度提取的信息以帮助改进合并的特征的层次尺度间关系。
HRNet的深度比较与分析: HRNet通过在所有网络中保持一个高分辨率特征,并逐步融合多尺度特征来丰富高分辨率特征。作者认为所提出的FEM可以看作是HRB的一种变体,类似于HRB中的多分辨率并行卷积,如图9所示。但FEM的尺度间交互作用将条件信息从大尺度传递到小尺度,而不是HRB中没有选择的所有尺度之间的密集交互作用。
为了进行比较,作者在HRB中生成与FEM中相同比例尺的特征图({60,30,15,8})。结果如表6所示。直接将HRB应用到基线(Baseline+ HRB)比PPM和ASPP产生更好的结果。没有选择的密集传递信息会导致目标特征的冗余,并产生次优结果。作者的解决方案是,在HRB的多分辨率融合阶段,应用所提出的跨尺度合并模块M从辅助特征中提取必要信息,如图10所示。条件特征选择模型(HRB-Cond)具有更好的性能。当只允许自顶向下的传递特征(记为HRB- td),HRB- td比HRB获得了更好的性能,因此作者也将其应用在了HRB-Cond得到HRB-TD-Cond。
先验掩膜生成的消融实验:
作者说明了先前的掩膜生成方法的两个缺点:1,掩膜生成过程包含可训练的元素,因此生成的掩膜会在训练过程中偏向于训练中使用的类。2,对支持特征进行掩膜平均池化导致判别能力的损失,在池化操作中,支持特征中最相关的信息可能会被不相关的信息淹没。在PFENet的设计中,作者选择了固定的高级特征进行先验掩膜的生成,因为它可以在不牺牲泛化能力的情况下为准确的分割提供足够的语义信息。先验掩膜可以在评估过程中为已见和未见数据提供来自高级特征的无偏差先验信息,而由可学习特征映射(例如[45],[58],[28])产生的掩膜会在训练过程中受到参数学习的影响产生不可避免的偏好。
表7显示,由可学习的或固定的中间层特征(Prior_{LM}或Prior_{FM})生成的掩膜比提出的Prior_{FH}带来的提升得要少,因为中层特征在揭示查询和支持特征之间的语义对应方面效果较差。为了验证设计的有效性,在表7中作者训练了另外两个模型:一个具有通过平均相似度生成的先验掩膜(Prior-A_{FH}),另一个具有通过mask池化的支持特征获得的先验掩码(Prior-P_{FH})。
作者在实验中也指出,提出的先验生成方法从大小为hw × hw的相似矩阵中取最大值来生成大小为h × w的先验掩膜(Eq.(3)),与prior - p从大小为hw × 1的相似矩阵中生成掩膜相比,计算复杂度远远小于网络的其余部分,速度差异很小。基于VGG-16基线的PriorFH、Prior-AFH、PriorPFH和Prior-FWFH的FPS值都在23.1 FPS左右。输出特征为2048通道的基于ResNet-50基线的PriorFH、Prior-AFH、PriorPFH和Prior-FWFH的FPS值分别为16.5、16.5、17.4和17.0。
作者还在图11可视化了生成的先验掩膜。由可学习的高级特征映射(L-H)生成的未见类的掩膜不能清楚地揭示潜在的感兴趣区域,而使用固定的高级特征映射(F-H)则保持了目标区域的总体完整性。与高级特征相比,中级特征(L-M和F-M)产生的先验掩膜更偏向于背景区域。
此外作者还对样本进行了可视化嵌入进行深入分析,如图12所示。其中1000个基类样本(灰色)和1000个新类样本(绿色、红色、紫色、蓝色和橙色),然后进行t分布-随机邻近嵌入(t-SNE[42])。可以看到,图12(a)和©中的中层特征的辨别能力低于图12(b)和(d)中的高级特征。其次,(a)和(b)中的可学习特征失去了辨别能力,因为新类的嵌入偏向于基类的嵌入,这不利于对未见类的泛化。
作者认为ImageNet[32]中包含了PASCAL-5 i和COCO的许多对象,用于骨干预训练,可能会出现见过测试类的情况,影响模型性能。为了进一步证明PFENet对完全看不见的物体的泛化能力,作者在最近提出的FSS-1000[19]数据集上进行了实验。FSS-1000由1000个类组成,其中486个类不包含在任何其他现有数据集中[19]。作者使用ResNet-50骨干在已见类上训练模型100个epoch,批大小为16,初始学习率为0.01,然后在未见类上进行测试。用于测试的抽样查询支持对的数量等于未见样本数量的5倍。如表8所示,在1-shot和5shot评估中,带有先验掩码的基线分别达到80.8和81.4前景IoU,在两种设置中都比普通基线(79.7和80.1)的前景IoU高出1.0个点以上。
Zero-Shot分割:
Zero-shot学习的目的是学习一个即使在没有给定标注数据的情况下也健壮的模型。这是小样本学习的一个极端例子。为了进一步证明提出的PFENet在极端情况下的鲁棒性,作者用类标签嵌入替换了池化的support特征。因此,先验这时是无用的,只验证在基线上的FEM与VGG-16骨干在Zero-shot的设置。
Word2Vec[27]和FastText[25]的嵌入分别在谷歌News[46]和Common Crawl[26]上进行训练。Word2Vec和FastText嵌入的拼接特征直接取代了原始模型中的池化support特征,而不需要归一化。如表11所示,基础结构在没有支持样本的未见类上达到53.2的mIoU,甚至在OSLSM[33]的few-shot设置下,在PASCAL-5i上优于一些有5个支持样本的模型。此外,所提出的FEM解决了Zero-shot设置中的空间不一致性,并提高了1.0的基线mIoU(从53.2提高到54.2)。
其他:
为了更好地理解主干如何影响提出的方法,作者也展示了用所有主干参数训练的四个模型的结果。结果表明,FEM和先验掩码对可训练骨干网模型的改善效果不如对固定骨干网模型的改善效果显著。可学习的高级特征给固定骨干带来了较差的性能,如表7所示,但对可训练骨干是有益的。在5shot的评估中,先验产生了比FEM更高的性能增益,因为先验是在5个支持样本上平均的,为查询图像提供了比1shot更准确的先验掩模,以对抗过拟合。
作者进行了参数量和速度的实验。如表6所示,最佳模型(Baseline + FEM + Prior)只有10.8M的可训练参数,这比表1中的其他方法要少得多。为了证明FEM带来的改进不是由于更多的可学习参数,还展示了具有更多参数(12.9M)的FEM‡模型的结果,但它产生的结果甚至比FEM (10.8M)更差。速度评估时,测试图像大小调整为473 × 473。如表6所示,FEM对推理速度的影响不大(从17.7 FPS到17.3 FPS)。虽然先验掩膜生成过程将基线从17.7 FPS降低到16.5 FPS,但最终模型仍然具有15+ FPS的效率。
因为在PASCAL-5i和COCO上计算1,000个query-support对可能会导致结果不稳定。作者通过使用不同的支持样本进行多次实验来分析结果的稳定性。
总结:
作者提出了先验掩膜生成方法和特征富集模块(FEM),即先验引导的特征富集网络(PFENet)。先验掩膜生成方法通过在预先训练的高层语义特征上利用余弦相似度计算来获得掩膜提高性能。先验淹没哦鼓励模型在不损失泛化能力的情况下更好地本地化query的目标。FEM方法通过自适应地合并多尺度的query和support特征,并辅以中间辅助监督和条件特征选择,解决了空间不一致性问题。有了这些模块,PFENet在PASCAL-5i和COCO数据集上都获得了SOTA的结果,而没有增加太多的模型尺寸和显著的效率损失。在Zero-shot场景下的实验进一步证明了我们工作的稳健性。未来可能的工作包括将这两种设计扩展到小样本目标检测和小样本实例分割
【社区访问】
【论文速递 | 精选】
阅读原文访问社区
https://bbs.csdn.net/forums/paper
AIEarth是一个由众多领域内专家博主共同打造的学术平台,旨在建设一个拥抱智慧未来的学术殿堂!【平台地址:https://devpress.csdn.net/aiearth】 很高兴认识你!加入我们共同进步!