论文介绍:HigherHRNet——用于自下而上人体姿态估计的尺度感知表示学习

简介: 【5月更文挑战第22天】HigherHRNet是针对自下而上人体姿态估计的尺度感知方法,通过构建高分辨率特征金字塔,改善多尺度人体姿态估计的准确性。该论文提出的新架构在COCO测试集上提高了2.5%的中号人物平均精度,达到70.5%的AP,且在CrowdPose上超越所有自上而下方法,实现67.6%的AP。作者通过消融实验验证了各个组件的重要性,并指出未来可优化模型以适应更复杂场景。论文链接:[https://arxiv.org/abs/1908.10357](https://arxiv.org/abs/1908.10357)

在人工智能领域,人体姿态估计一直是一个热门的研究方向。它不仅在行为分析、虚拟现实、医疗健康等领域有着广泛的应用,而且在自动驾驶、监控分析等技术中也扮演着重要角色。近年来,随着深度学习技术的发展,自下而上的人体姿态估计方法取得了显著的进展,但仍然面临着尺度变化带来的挑战。一篇名为《HigherHRNet: 用于自下而上人体姿态估计的尺度感知表示学习》的论文提出了一种新的方法,旨在解决这一问题。

该论文由Bowen Cheng、Bin Xiao、Jingdong Wang、Honghui Shi、Thomas S. Huang和Lei Zhang共同撰写,他们分别来自UIUC、Microsoft和University of Oregon。论文中提出的HigherHRNet方法,通过构建高分辨率特征金字塔,学习尺度感知的表示,从而在多尺度人体姿态估计中取得了突破。这种方法在训练时采用多分辨率监督,推理时采用多分辨率聚合,使得关键点定位更加精确,尤其是对于图像中的小人物。

HigherHRNet的核心在于其高分辨率特征金字塔,这一结构由HRNet的特征图输出和通过转置卷积上采样得到的更高分辨率输出组成。在COCO测试集上,HigherHRNet在中号人物的平均精度(AP)上比之前最好的自下而上方法提高了2.5%,并且在没有使用细化或其他后处理技术的情况下,达到了70.5%的AP,创造了新的最先进结果。在CrowdPose测试集上,HigherHRNet甚至超越了所有现有的自上而下方法,达到了67.6%的AP,显示出其在拥挤场景中的鲁棒性。

论文首先回顾了2D人体姿态估计的背景和现有方法,指出了自上而下和自下而上方法的优缺点。自上而下方法依赖于人检测器,将问题简化为单人姿态估计,但计算成本较高;而自下而上方法则直接在输入图像中定位所有人物的身份无关关键点,然后进行分组,这种方法速度快,适合实时姿态估计,但处理尺度变化的能力有限。为了克服这一挑战,HigherHRNet提出了一种新的高分辨率特征金字塔模块,并在训练和推理阶段采用了创新的策略。

在实验部分,作者在COCO关键点检测数据集上验证了HigherHRNet的有效性,并与其他自下而上方法进行了比较。结果显示,HigherHRNet在没有使用任何后处理技术的情况下,取得了显著的性能提升。此外,作者还在CrowdPose数据集上进行了实验,进一步证明了HigherHRNet在拥挤场景中的有效性。

为了深入理解HigherHRNet的各个组件对性能的影响,作者进行了一系列消融实验。实验结果表明,添加上采样模块、特征连接、多分辨率监督以及热图聚合策略都显著提升了性能。此外,作者还探讨了训练图像尺寸和网络骨干对性能的影响。

尽管HigherHRNet在处理尺度变化方面取得了显著成果,但仍有改进空间,例如在更多样化的场景和更复杂的背景下的泛化能力。未来的研究可以在此基础上进一步优化模型,以应对更加复杂的实际应用场景。

论文地址:https://arxiv.org/abs/1908.10357

目录
相关文章
|
9月前
|
机器学习/深度学习 存储 监控
yolov5单目测距+速度测量+目标跟踪(算法介绍和代码)
yolov5单目测距+速度测量+目标跟踪(算法介绍和代码)
|
9月前
|
算法 计算机视觉
yolov5 deepsort-船舶目标检测+目标跟踪+单目测距+速度测量(代码+教程)
yolov5 deepsort-船舶目标检测+目标跟踪+单目测距+速度测量(代码+教程)
|
9月前
|
人工智能 机器人 测试技术
论文介绍:零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
【5月更文挑战第4天】SAM-6D框架是零样本6D物体姿态估计的突破,能检测并准确估计新物体姿态,推动具身智能发展。该框架结合实例分割和姿态估计模型,实现RGB-D图像中的物体分割与姿态估计。在BOP基准测试中,SAM-6D超越现有方法,展示出色泛化能力,但还需应对光照变化、遮挡等问题,以提升现实环境中的性能。[论文链接](https://arxiv.org/pdf/2311.15707.pdf)
192 13
|
机器学习/深度学习 编解码 移动开发
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
|
9月前
|
编解码 算法 自动驾驶
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
569 0
|
机器学习/深度学习 传感器 算法
【图像去噪】基于CTV-RPCA实现图像去噪和目标显著性检测附matlab代码
【图像去噪】基于CTV-RPCA实现图像去噪和目标显著性检测附matlab代码
|
存储 传感器 编解码
单目3D检测新SOTA!PersDet:透视BEV中进行3D目标检测
目前,在鸟瞰图 (BEV)中检测3D目标要优于其它用于自动驾驶和机器人领域的3D目标检测器。但要将图像特征转化为BEV需要特殊的操作进行特征采样。
单目3D检测新SOTA!PersDet:透视BEV中进行3D目标检测
|
机器学习/深度学习 算法
m基于GRNN广义回归神经网络和HOG特征提取的人体姿态检测识别matlab仿真,样本集为TOF深度图
m基于GRNN广义回归神经网络和HOG特征提取的人体姿态检测识别matlab仿真,样本集为TOF深度图
348 0
m基于GRNN广义回归神经网络和HOG特征提取的人体姿态检测识别matlab仿真,样本集为TOF深度图
|
机器学习/深度学习 固态存储
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(二)
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(二)
102 0
|
机器学习/深度学习 编解码 监控
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(一)
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(一)
147 0