许多新兴智能物联网应用对轻量级多人姿势估计的需求越来越大。然而,现有算法往往具有较大的模型尺寸和密集的计算需求,使得它们不适合实时应用和在资源受限的硬件上部署。轻量级和实时的方法非常罕见,更多都是以低的精度为代价。
在本文中提出了
EfficientHRNet
,这是一个轻量级多人人体姿势估计器,能够在资源受限的设备上实时执行。通过将模型缩放的最新进展与高分辨率特征表示相结合,EfficientHRNet
可以创建高精确的模型,同时减少计算量以实现实时性能。最大的模型能够达到当前最先进技术的4.4%的精度差距以内,同时具有1/3的模型尺寸和1/6的计算,在Nvidia Jetson Xavier
上达到23 FPS。与顶级实时方法相比,EfficientHRNet
提高了22%的精度,同时以1/3的功率实现了类似的FPS。在每一个层面上,EfficientHRNet
都被证明比其他自下而上的2D人体姿势估计方法更具计算效率,同时达到了极具竞争力的精度。
1、简介
2D人体姿态估计是许多流行的智能应用程序中常用的任务,近年来取得了长足进展。2D人体姿态估计有两种主要方法。第一种是自上而下的方法,其中提供了人类的裁剪图像,网络使用这些裁剪图像生成人类关键点。自顶向下方法依赖于目标检测器来提供初始人类作物,因此它们通常具有相对较高的计算成本,并且不是真正的端到端方法。第二种是自下而上的方法,网络从原始图像开始工作,并为图像中的所有人生成人类关键点。虽然这些方法往往达不到最先进的自顶向下方法所能达到的精度,但它们的模型大小和计算开销相对较低。即使如此,最先进的自下而上方法仍然相当大,计算成本也很高。目前的最先进技术有6380万个参数,需要1543亿浮点运算。
许多新兴的物联网(IoT)应用程序需要在摄像机旁边的边缘进行轻量级实时多人姿势估计。这在广泛的智能互联应用程序中更为明显,这些应用程序需要持续的人类活动分析和行为监控。视频监控、患者监控和公共安全等例子很少。所有这些应用程序都需要能够在物联网边缘设备上靠近摄像头运行的灵活但高度准确的人体姿势估计。尽管如此,对于开发能够在有限的计算资源下实时执行的轻量级自下而上方法,却缺乏关注。为了解决这一差距,需要一系列轻量级实时人体姿势估计模型,这些模型的精度与最先进的方法相当。
在本文中提出了EfficientHRNet
,这是一个轻量级可扩展网络家族,用于高分辨率和高效的实时自下而上的多人姿势估计。EfficientHRNet
统一了最先进的EfficientNet
和HRNet
的原理,并提出了一种新的公式,可以实现接近最先进的人体姿势估计,同时比所有其他自下而上的方法更具计算效率。
与HRNet
类似,EfficientHRNet
使用多种功能分辨率来生成关键点,但效率更高。同时,它使用EfficientNet
作为主干,并调整其缩放方法,以更好地适合人类姿势估计。为了实现轻量级实时执行,EfficientHRNet
进一步扩展了EfficientNet
公式,不仅可以缩小基线,还可以联合缩小输入分辨率、高分辨率网络和热图预测网络。通过这一点能够创建一系列网络,这些网络能够解决实时2D人体姿势估计的整个领域,同时能够灵活满足应用程序的精度和计算要求。
作者评估了COCO
数据集的准确性和英伟达NX Xavier
的实时性能。图1展示了本文的模型如何在较低的计算成本下提供与直接模型相同或更高的精度。
与最先进的模型相比,基线EfficientNet
在精度方面具有竞争力,但需要的计算量要少得多,因此推断速度更快。与HRNet
相比,EfficientHRNet
的精度提高了0.4%,同时计算需求减少了34%。与HigherHRNet
和PersonLab
相比,EfficientHRNet
的准确度下降了1.7%至5.1%,计算需求下降了83%至93%,令人印象深刻。这导致FPS比HigherHRNet
增加3.4倍。
即使与专门为轻量级执行而设计的模型(如lightweight OpenPose
)相比,缩小的EfficientHRNet
也能够实现10.1%的精度超越,同时进一步减少15%的计算量,保持相似的FPS。
此外,已在ImageNet上对缩小的主干模型进行了单独评估。结果表明,在取得比同行更高的效率的同时,具有竞争力的准确性。
总之,本文有以下贡献:
- 将
EfficientHRNet
作为第一种方法为自下而上的实时多人2D人体姿势估计提供轻量级、可缩放的模型,从而达到与最先进技术相当的精度。 - 提出了一种新的公式,将
EfficientNet
的可扩展性整合到整个高分辨率网络中,以降低计算复杂性并允许实时执行。 - 是第一个提供向下缩放公式创建一系列紧凑的
EfficientNet
模型,这些模型可扩展到计算能力受限的嵌入式和边缘物联网设备的基线以下。 - 对具有挑战性的
COCO
数据集进行了全面分析,以显示模型在准确性、模型大小、计算复杂性、效率和实时执行方面与最先进和实时方法的对比情况。 - 对最先进的嵌入式物联网
GPU
(Nvidia Jetson NX)进行了广泛的性能分析,以证明EfficientHRNet
相对于现有算法的执行优势。
2、相关工作
2.1、Top-down Methods
自顶向下的方法依赖于首先使用对象检测器识别图像中的所有人,然后在定义的边界框内检测单个人的关键点。这些单人和多人姿势估计方法通常使用对象检测器生成人物边界框。例如,RMPE
在单人姿势估计器叠加沙漏网络的基础上添加对称空间变换网络,以从不精确的边界框中获得高质量的区域,然后使用参数非最大值抑制检测姿势。
2.2、Bottom-up Methods
自底向上方法检测图像中的无身份关键点,并使用各种关键点分组技术将其分组为人。方法类似于并通过整数线性程序和非最大值抑制执行分组。与具有几乎相似精度的自顶向下方法相比,这允许更快的推理时间。其他方法通过使用贪婪分组技术以及其他优化进一步改进预测时间。例如,OpenPose
是一个多阶段网络,其中一个分支以热图的形式检测关键点,而另一个分支生成用于将关键点彼此关联的Part Affinity Fields
。
分组是通过计算所有关键点之间的线积分并对积分最高的一对进行分组来完成的。轻量级OpenPose
用MobileNet
取代更大的主干网,以更少的参数和FLOP
实现实时性能,同时降低准确性。PifPaf
使用“零件强度场”检测身体部位,使用“零件关联场”将零件相互关联以形成人体姿势。堆叠沙漏网络用于预测热图和分组关键点。
分组是通过为每个关键点分配一个嵌入(称为标记),然后根据标记向量之间的L2距离关联这些关键点来完成的。
2.3、Multi-scale High-Resolution Networks
特征金字塔网络增强了多尺度表示,广泛应用于复杂和必要的计算机视觉应用,如分割和姿势估计。使用上采样、扩展卷积和反卷积等技术恢复高分辨率特征图在目标检测、语义分割和姿势估计方面也非常流行。此外,有几项工作侧重于直接生成高分辨率特征图。
HRNet
建议在整个网络中维护高分辨率特征图。HRNet
由跨多个阶段具有不同分辨率的多个分支组成。通过多尺度融合,HRNet能够生成高分辨率的特征地图,并将其应用于目标检测、语义分割和姿势估计,从而获得显著的精度。
最近,提出了用于多人姿势估计的HigherHRNet
,它使用HRNet
作为基础网络来生成高分辨率特征图,并进一步添加了反卷积模块来预测准确、高质量的热力图。HigherHRNet
在COCO
数据集上实现了一流的精度,超过了所有现有的自底向上方法。本文采用HigherHRNet
原理,通过多尺度融合生成高分辨率特征图预测高质量的热力图。
2.4、Model Scaling
以前关于自底向上姿势估计的工作通常依赖于大型主干网络,如ResNet
或VGGNet
,或大输入分辨率和多尺度训练,以达到最先进的精度。最近的一些工作表明,增加其他相同模型的通道尺寸可以进一步提高精度。EfficientNet
和RegNet
表明,通过联合缩放网络宽度、深度和输入分辨率,与以前使用更大模型的先进网络相比,可以实现更好的图像分类效率。最近,EfficientNet
的精简模型删除了一些元素,例如squeeze and excite
层和swish
层,使网络更加硬件友好。
受EfficientNet
启发,EfficientDet
提出了一种用于目标检测的复合缩放方法以及高效的多尺度特征融合。对于多人姿势估计,尤其是嵌入式设备,缺乏有效的缩放方法。对于注重实时性能的计算机视觉应用,需要具有可扩展性和相对精确性的轻量级姿态估计模型。作者提出的复合缩放也受到了EfficientNet
的启发,是一种联合缩放EfficientHRNet
的宽度、深度和输入分辨率以及高分辨率模块内的重复的方法。此外,这种复合缩放允许EfficinentNet
主干扩展到B0以下,从而创建更轻的模型。
2.5、Real-Time Pose Estimation
虽然该领域的大多数工作都侧重于孤立的准确性,但最近的一些工作已经发展起来,将重点更多地转移到实时推断上。专注于实时执行,使用密集连接的残差模块和高分辨率特征图,实现精确和轻量级的单人姿势估计,能够在Nvidia 1080TI
上实现39 FPS。Lightweight OpenPose
将OpenPose
修改为使用MobileNet
主干和更少的细化阶段,并使用Intel OpenVINO Toolkit
在Intel NUC 6i7KYB
上获得28 FPS。Nvidia还专注于实时推理,发布了trt位姿,这是一种使用TensorRT
和DeepStream
优化的单人位姿估计模型,在英伟达Jetson Xavier
上实现了高达251帧/秒的速度。