4. 方法原理
4.1 问题数学描述
为了充分探索ERF拟合中膨胀的灵活性,本文考虑一个完整的膨胀域,即Inception卷积。Inception卷积对每个通道中的两个轴有独立的膨胀,其形式上表示为:
其中和是滤波器在第个输出通道的轴和轴上从1到的膨胀, 为输出通道数。单个Inception卷积的候选结构号是。
本文的目标是开发出一种新的算法,通过选择集合来有效地拟合不同任务之间的ERF。
4.2 问题的解决之道
DART和SPOS是NAS方法的两大主流家族。然而,由于Inception卷积包含种膨胀模式和个候选项,因此DART和SPOS都不能像前面所讨论的那样应用在本方法的领域中进行有效的搜索。
有实验证明DART在两个单独的数据集上交替训练体系结构权重和操作权重,并使用体系结构权重来表示相应操作的重要性。尽管得到的体系结构权重可能在操作之间均匀分布,但以这种方式获得的操作仍然包含一个良好的网络。预先训练的超网络中的权值具有指导操作选择的信息。在这项工作中作者遵循这一思想,并制定一个统计优化问题。
1 超网络
给定一个网络体系结构和它需要适应的任务,用设计超网络保留它的体系结构,同时改变内核大小以覆盖所有候选膨胀模式。形式上,对于核大小为的卷积层,在超网络中将其替换为,这是所有候选膨胀模式的最大宽度和高度。超网络在给定的任务上进行了预训练。
2 统计优化
对于每一个权值为的卷积层,将定义为在超网络中展开的第个卷积核的权值,表示从裁剪出来的膨胀式卷积核,其位置由和确定。这里将膨胀选择表述为一个优化问题,在此问题中,预训练的膨胀权值的输出期望与裁剪的膨胀权值之间的误差最小,正式表达为:
上式,是Batch为、高为、宽为卷积层的输入,由于和与无关,优化目标进一步表示为:
要准确地解决上述问题,需要进行进一步的计算,在整个训练数据集上平均。假设经过了BN操作,并且每个通道的都有相同的和值来参与计算和训练。结合和之间的移位不变性以及之间的置换不变性,可以得出在所有位置之间的分布相同,目标也可以更加简化:
其中为中所有位置的期望,为与shape相同的全1矩阵。通过以上推导,可以通过独立遍历所有的膨胀模式。
4.3 方法讨论
1、与DART的关系
在DART算法种操作是串行计算的,总cost为。然而,在EDO算法中操作是并行计算的,总cost为。对于大多数CNN来说通常为1,于是仅为在设置为时的56%。
因此,EDO比DART的计算效率更高。此外,在某些情况下,由于结构参数的矩阵主特征值较大,使得DART退化为随机抽样。然而EDO在预训练的网络权值上直接定义了统计优化问题,而不是引入不鲁棒的结构参数。
2、与NATS和CRNAS的关系
CRNAS在每个阶段独立搜索扩张,因此是基于SPOS的。
NATS将卷积分成若干组,并在几个扩张模式(通常为5个模式)中为每组用DART搜索。
Inception卷积是通道式的,包含所有在最大膨胀下的膨胀模式(至少16种)。提议的方法的流程如图所示:
5 实验
5.1 图像识别
5.2 目标检测
5.3 实例分割
5.4 人体姿态估计
5.5 与其他dilation search对比
只想说一句话总结,太厉害了,全领域提升!!!!