3、本文方法
3.1、Network Architecture and Formulation
1、Backbone Network
EfficientHRNet
的第一个阶段是主干,由修改后的EfficientNet
组成,其比例低于基线。主干输出四个不同分辨率的特征图,分辨率为输入图像大小的1/4、1/8、1/16和1/32。这些特征图被传递到网络主体中,称为高分辨率网络。
2、High-Resolution Network
高分辨率网络的灵感来自HRNet
和HigherHRNet
。借用这些高分辨率网络的原理带来了两大优势:
- 通过在整个网络中维护多个高分辨率特征表示,可以生成具有更高空间精度的热力图。
- 重复的多尺度融合允许高分辨率特征表示通知低分辨率表示,反之亦然,从而产生理想的鲁棒多分辨率特征表示用于多人姿势估计。
图2显示了EfficientHRNet
的详细架构图。它显示了3个子网络:主干网络、高分辨率网络和热图预测网络。它还提供了显示网络如何缩放输入分辨率和特征图宽度的方程。
高分辨率网络有3个阶段、和,包含4个不同分辨率的并行分支、、和。第一阶段从两个分支和开始,每个连续阶段添加一个额外的分支,直到所有4个分支都出现在中。这4个分支分别由宽度为的高分辨率模块组成。每个分支都包含反映主干网络输出分辨率的降低分辨率的特征表示,如图2和以下等式所示:
例如,第2级()有3个分支,分辨率为原始输入图像分辨率的1/4、1/8和1/16,宽度为。此外,每个高分辨率模块由多个块组成,每个块包含2个残差块,每个残差块通过残差连接执行3次卷积操作。
3、Heatmap Prediction Network
热力图预测网络用于生成人类关键点预测。为了预测更准确的热力图,在高分辨率网络的顶部添加了一个DeConv
块。转置卷积用于生成高质量的特征图,其分辨率为原始输入分辨率的1/2。DeConv
块的输入是特征图和来自高分辨率网络的预测热图的串联,如下式所示:
反卷积后添加两个残差块,以细化上采样特征图。在DeConv
块之后,使用1×1卷积预测热力图和标记图,每个热力图的特征图大小如下所示:
分组过程通过将标签具有最小L2距离的关键点分组,将关键点分组为多个人。高分辨率网络具有尺度感知能力,在训练期间对热图使用多分辨率监控,使网络能够更精确地学习,即使是对小尺度人也是如此。根据GT生成不同分辨率的热力图,以匹配不同尺度的预测关键点。
因此,最终热力图损失是所有分辨率的均方误差之和。然而,由于高分辨率标记映射不能很好地收敛,标记映射的分辨率是原始输入分辨率的1/4。
3.2、Compound Scaling Method
本节详细介绍了复合缩放方法,该方法可联合缩放EfficientHRNet
的所有部分,如图2和表1所示。EfficientHRNet
的目标是提供一系列针对精度和效率进行优化的模型,这些模型可以缩放以满足不同的内存和计算约束集。
以前关于自下而上的人体姿势估计和语义分割的工作主要通过使用更大的主干网络(如ResNet
和VGGNet
)、使用较大的输入图像大小或使用多尺度训练来实现高精度来缩放基础网络。然而,这些方法仅依赖于单个维度的缩放,其效果有限。
最近的研究表明,通过联合缩放宽度、深度和输入图像分辨率,图像分类具有显著的性能。受EfficientNet
启发,EfficientDet
提出了一种类似的目标检测复合缩放方法,它联合缩放主干网络、多尺度特征网络和目标检测器网络。
本文使用EfficientHRNet
为计算机视觉应用提出了一种基于启发式的复合缩放方法,特别是自底向上的人体姿势估计和语义分割。EfficientHRNet
的方法使用缩放系数来联合缩放主干网络、高分辨率网络和任务头。更准确地说,EfficientNet
主干网的规模缩小到基线以下,而EfficicentHRNet
的其余部分则缩小到基线之下,以便在创建轻量级灵活网络的同时保持接近最先进的准确性。
1、Backbone Network
宽度和深度缩放系数与EfficientNet
保持相同。为了满足在受限设备上运行模型的需求,提供了一种新的公式,用于将EfficientNet
扩展到基线以下,并使其成为更紧凑的模型。
从基线EfficientNet-B0
缩放系数开始:
(=-1,-2,-3,-4)被倒置,以计算紧凑型EfficientNet
模型的缩放倍数,其符号为,,和。例如,为了获得基线分辨率224,并针对,从(4)中取r,=−1可以得到分辨率缩放系数为,即0.87,那么缩放分辨率大小ceil(224∗0.87)=195。此模式对到重复,可以在表2中看到训练这些紧凑的EfficientNet
模型(到) 并使用EfficientHRNet
中主干网络的结果模型。
2、High-Resolution Network
高分辨率网络有3个阶段和4个分支,具有4种不同的特征图尺寸。每个分支n也有不同的宽度,基线模型每个分支的宽度分别为32、64、128和256。有选择地选取1.25的宽度比例因子,并使用以下公式缩小宽度:
其中n是一个特定的分支数,是复合标度系数。
此外,在每个阶段内,每个高分辨率模块都有多个重复多次的块Msn,如表1所示。在基线EfficientHRNet
模型中,每个阶段内的块分别重复1、4和3次。作者发现第三阶段的重复次数对准确度的影响最大。因此,随着模型的缩小,高分辨率模块内的重复次数呈线性减少,从第2阶段开始,直到达到单个重复,然后再转到第3阶段,如表1所示。
3、Heatmap Prediction Network
DeConv
块的缩放方式与高分辨率网络的宽度相同(5)。热图预测网络输出标签和热图,其宽度在所有模型中保持不变。
4、Input Image Resolution
EfficientNet
将原始输入图像分辨率分层采样降低32倍。因此,EfficientHRNet
的输入分辨率必须可除以32,并按线性比例缩小,如下式所示:
4、实验
4.1、ImageNet
4.2、COCO-Pose
4.3、可视化结果
5、参考
[1].EfficientHRNet:Efficient and Scalable High-Resolution Networks for Real-Time Multi-Person 2D Human Pose Estimation.