论文介绍:HigherHRNet——用于自下而上人体姿态估计的尺度感知表示学习

简介: 【5月更文挑战第22天】HigherHRNet是针对自下而上人体姿态估计的尺度感知方法,通过构建高分辨率特征金字塔,改善多尺度人体姿态估计的准确性。该论文提出的新架构在COCO测试集上提高了2.5%的中号人物平均精度,达到70.5%的AP,且在CrowdPose上超越所有自上而下方法,实现67.6%的AP。作者通过消融实验验证了各个组件的重要性,并指出未来可优化模型以适应更复杂场景。论文链接:[https://arxiv.org/abs/1908.10357](https://arxiv.org/abs/1908.10357)

在人工智能领域,人体姿态估计一直是一个热门的研究方向。它不仅在行为分析、虚拟现实、医疗健康等领域有着广泛的应用,而且在自动驾驶、监控分析等技术中也扮演着重要角色。近年来,随着深度学习技术的发展,自下而上的人体姿态估计方法取得了显著的进展,但仍然面临着尺度变化带来的挑战。一篇名为《HigherHRNet: 用于自下而上人体姿态估计的尺度感知表示学习》的论文提出了一种新的方法,旨在解决这一问题。

该论文由Bowen Cheng、Bin Xiao、Jingdong Wang、Honghui Shi、Thomas S. Huang和Lei Zhang共同撰写,他们分别来自UIUC、Microsoft和University of Oregon。论文中提出的HigherHRNet方法,通过构建高分辨率特征金字塔,学习尺度感知的表示,从而在多尺度人体姿态估计中取得了突破。这种方法在训练时采用多分辨率监督,推理时采用多分辨率聚合,使得关键点定位更加精确,尤其是对于图像中的小人物。

HigherHRNet的核心在于其高分辨率特征金字塔,这一结构由HRNet的特征图输出和通过转置卷积上采样得到的更高分辨率输出组成。在COCO测试集上,HigherHRNet在中号人物的平均精度(AP)上比之前最好的自下而上方法提高了2.5%,并且在没有使用细化或其他后处理技术的情况下,达到了70.5%的AP,创造了新的最先进结果。在CrowdPose测试集上,HigherHRNet甚至超越了所有现有的自上而下方法,达到了67.6%的AP,显示出其在拥挤场景中的鲁棒性。

论文首先回顾了2D人体姿态估计的背景和现有方法,指出了自上而下和自下而上方法的优缺点。自上而下方法依赖于人检测器,将问题简化为单人姿态估计,但计算成本较高;而自下而上方法则直接在输入图像中定位所有人物的身份无关关键点,然后进行分组,这种方法速度快,适合实时姿态估计,但处理尺度变化的能力有限。为了克服这一挑战,HigherHRNet提出了一种新的高分辨率特征金字塔模块,并在训练和推理阶段采用了创新的策略。

在实验部分,作者在COCO关键点检测数据集上验证了HigherHRNet的有效性,并与其他自下而上方法进行了比较。结果显示,HigherHRNet在没有使用任何后处理技术的情况下,取得了显著的性能提升。此外,作者还在CrowdPose数据集上进行了实验,进一步证明了HigherHRNet在拥挤场景中的有效性。

为了深入理解HigherHRNet的各个组件对性能的影响,作者进行了一系列消融实验。实验结果表明,添加上采样模块、特征连接、多分辨率监督以及热图聚合策略都显著提升了性能。此外,作者还探讨了训练图像尺寸和网络骨干对性能的影响。

尽管HigherHRNet在处理尺度变化方面取得了显著成果,但仍有改进空间,例如在更多样化的场景和更复杂的背景下的泛化能力。未来的研究可以在此基础上进一步优化模型,以应对更加复杂的实际应用场景。

论文地址:https://arxiv.org/abs/1908.10357

目录
相关文章
|
2月前
|
人工智能 机器人 测试技术
论文介绍:零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
【5月更文挑战第4天】SAM-6D框架是零样本6D物体姿态估计的突破,能检测并准确估计新物体姿态,推动具身智能发展。该框架结合实例分割和姿态估计模型,实现RGB-D图像中的物体分割与姿态估计。在BOP基准测试中,SAM-6D超越现有方法,展示出色泛化能力,但还需应对光照变化、遮挡等问题,以提升现实环境中的性能。[论文链接](https://arxiv.org/pdf/2311.15707.pdf)
57 13
|
11月前
|
传感器 算法 机器人
使用贝叶斯滤波器通过运动模型和嘈杂的墙壁传感器定位机器人研究(Matlab代码实现)
使用贝叶斯滤波器通过运动模型和嘈杂的墙壁传感器定位机器人研究(Matlab代码实现)
|
12月前
|
机器学习/深度学习 算法
基于模糊小波神经网络的空中目标威胁评估(Matlab代码实现)
基于模糊小波神经网络的空中目标威胁评估(Matlab代码实现)
|
12月前
|
数据挖掘
【鲁棒】使用概率轨迹的鲁棒集成聚类研究(Matlab代码实现)
【鲁棒】使用概率轨迹的鲁棒集成聚类研究(Matlab代码实现)
|
机器学习/深度学习 编解码 监控
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(一)
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(一)
105 0
|
机器学习/深度学习 固态存储
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(二)
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(二)
56 0
|
机器学习/深度学习 算法 量子技术
机器学习解决核磁共振谱中「谁是谁」的问题,可直接从晶体结构预测化学位移
机器学习解决核磁共振谱中「谁是谁」的问题,可直接从晶体结构预测化学位移
|
机器学习/深度学习 算法 定位技术
CVPR 2017|SfMLearner:单目视频中深度和姿态估计的无监督算法
将相邻帧(包括当前帧、上一帧、下一帧)输入Pose CNN,得到旋转矩阵R和平移矩阵T,预测相机的位姿变化
172 0
|
机器学习/深度学习 传感器 算法
【FNN预测】基于蝙蝠优化的模糊神经网络FNN研究附Matlab代码
【FNN预测】基于蝙蝠优化的模糊神经网络FNN研究附Matlab代码
|
机器学习/深度学习 传感器 算法
【模糊小波神经网络预测】基于模糊小波神经网络实现攻击目标优先级评估附matlab代码
【模糊小波神经网络预测】基于模糊小波神经网络实现攻击目标优先级评估附matlab代码

相关实验场景

更多