4、搜索空间
本文作者总共考虑下面4个不同的空间来搜索模型。
4.1、FBNetV2-F space
本文的大部分消融实验都在这个空间下进行的,其宏观架构定义在Tabel 1,微观架构定义在Tabel 2的第1行。它有多个搜索变量,包括卷积核大小、非线性类型、SE Block的使用、Block扩展率、Block特征通道,包含种不同架构。
4.2、FBNetV2-F-Fine space
FBNetV2-F-Fine与FBNetV2-F的区别在于,每个MBConv块允许具有不同的微体系结构。FBNetV2-F-Fine包含架构,比FBNetV2-F大倍,可以看作是FBNetV2-F Space的细粒度版本。
4.3、FBNetV2-F++ space
为了证明所提方法的搜索效率,作者扩展了微体系结构,在MBConv块中将SE Module替换为Split-Attention(SA),并将其表示为FP-NAS微体系结构(Tabel 2第2行);
SA模块将SE模块从一个分割扩展为多个分割。然而,在原始手工设计的ResNeSt模型中,选择了固定数量的分割(2、4),并且SA模块在所有ResNeXt块中使用。
假设没有必要在任何地方使用SA模块,这将导致计算开销。因此,通过扩展搜索变量no使SA模块完全可搜索。对于split有额外的选择{2,4},这意味着每个块组可以独立选择是否使用SA模块以及使用split分割的数量。注意,在no-of-split选项之间没有共享MBConv块的模型权值,这意味着当额外的选项{2,4}被引入时,supernet的总模型权值将增加一倍,这增加搜索的难度。
这里将这种带有SA模块搜索空间命名为FPNetV2-F++空间,比FBNetV2-F Space大。
4.4、FP-NAS spaces
FBNetV2-F++ Space中最大的模型在输入大小为128时只使用了122M FLOPS。为了证明搜索方法的有效性,将从以下几个方面对FBNetV2-F宏架构进行了扩展。增加了搜索的Channel,使它更宽;还增加了组块的重复次数,使其更深。最后,通过增加输入图像的大小来提高图像的分类分辨率,从而提高识别性能。
通过结合扩展的宏架构和FP-NAS微架构得到了3个大的FP-NAS空间,其中包含了不同大小的模型供搜索。还使用FP-NAS-L表示从这些空间搜索的模型。
5、实验
5.1、自适应采样的有效性
从上图可以看出,K的值与最终的结果之间有很强的相关性
从上图可以看出,更大的K样品更多的架构,而分布熵降低更明显,这就意味着学习体系结构的分布是更有效。
从上图可以看出,在每个epoch搜索结束时,k越大,架构参数和模型权值的联合优化就越有效。样本越多,越有助于更好地估计梯度,也能更快地学习分布,从而更频繁地对有前景的架构进行采样,更专注于更新与它们相关的模型权值。
从上图可以看出,FS在K时的搜索计算代价几乎是线性增加的。
5.2、Split-Attention搜索模块
5.3、与其他方法的比较
上表将FP-NAS模型与其他模型进行了比较。FP-NAS模型比其他模型显示了更好的ATC权衡。在上表中还比较了使用和不使用就地蒸馏的BigNAS模型。对于小型模型,FP-NAS-S4++不蒸馏已经和BigNAS-S模型的inplace distillation有相当的性能了。对于大型模型,基于vanilla distillation的FP-NASL2可以超越inplace distillation的BigNAS-XL大约0.7个百分点,但是基于vanilla distillation的FP-NASL2具有更低的FLOPS。