多人姿态识别框架——AlphaPose

简介: 多人姿态识别框架——AlphaPose

多人姿态识别简介


人体姿态估计有两个主流方案:Two-step frameworkPart-based framework。第一种方案是检测环境中的每一个人体检测框,然后独立地去检测每一个人体区域的姿态(自顶向下的方法)。第二种方案是首先检测出环境中的所有肢体节点,然后进行拼接得到多人的骨架(自底向上的方法)。第一种方案,姿态检测准确度高度以来目标区域框检测的质量。第二种方案,如果两人离得十分近,容易出现模棱两可的情况,而且由于是依赖两个部件之间的关系,所以失去了对全局的信息获取。

AlphaPose


AlphaPose采用自顶向下的方法,提出了RMPE(区域多人姿态检测)框架。该框架主要包括symmetric spatial transformer network (SSTN)、Parametric Pose Non- Maximum-Suppression (NMS)和Pose-Guided Proposals Generator (PGPG)。并且使用symmetric spatial transformer network (SSTN)、deep proposals generator (DPG) 、parametric pose nonmaximum suppression (p-NMS) 三个技术来解决野外场景下多人姿态估计问题。

在SPPE结构上添加SSTN,能够在不精准的区域框中提取到高质量的人体区域。并行的SPPE分支(SSTN)来优化自身网络。使用parametric pose NMS来解决冗余检测问题,在该结构中,使用了自创的姿态距离度量方案比较姿态之间的相似度。用数据驱动的方法优化姿态距离参数。最后我们使用PGPG来强化训练数据,通过学习输出结果中不同姿态的描述信息,来模仿人体区域框的生成过程,进一步产生一个更大的训练集。

相关论文


https://arxiv.org/abs/1612.00137

论文代码


https://github.com/MVIG-SJTU/AlphaPose

获取代码


git clone https://github.com/MVIG-SJTU/AlphaPose.git

按照repo的安装说明完成代码库的安装,然后运行下面命令行:

python scripts/demo_inference.py --cfg configs/coco/resnet/256x192_res50_lr1e-3_1x.yaml --checkpoint pretrained_models/fast_res50_256x192.pth --indir examples/demo/

运行结果如下:

4b9dcf1cf13e6167b7e803a7cdea0fcd.jpg

f9eabb819d5d7fe6e34d5cacb0185b3d.jpg

4560cc0b8cae40083254fa27e1094a38.jpg

one more thing


等过一段时间博主有时间可以详细讲解一下Alphapose这篇论文,里面的许多思想或是技术都是值得我们研究和借鉴的。

相关文章
|
10月前
|
人工智能 机器人 人机交互
哥大华人开发人脸机器人,照镜子自主模仿人类表情超逼真
【4月更文挑战第3天】哥伦比亚大学研究人员开发了一款名为Emo的机器人,能观察并模仿人类面部表情,实现更自然的人机交互。Emo配备26个面部执行器和高分辨率摄像头,通过“自我建模”学习模仿表情,并能预测人类表情变化。这一创新有望改善人机理解和响应情绪的能力,应用于教育、医疗等领域,但也引发了关于情感依赖和伦理问题的讨论。
173 4
哥大华人开发人脸机器人,照镜子自主模仿人类表情超逼真
|
10月前
|
数据采集 机器学习/深度学习 算法框架/工具
利用Python实现基于图像识别的自动化数据采集系统
本文介绍了如何利用Python编程语言结合图像识别技术,构建一个自动化的数据采集系统。通过分析图像内容,实现对特定信息的提取和识别,并将其转化为结构化数据,从而实现高效、准确地采集需要的信息。本文将详细讨论系统的设计思路、技术实现以及应用场景。
|
传感器 机器学习/深度学习 人工智能
苏黎世理工最新!maplab2.0:模块化的多模态建图定位框架
将多传感器模态和深度学习集成到同时定位和mapping(SLAM)系统中是当前研究的重要领域。多模态是在具有挑战性的环境中实现鲁棒性和具有不同传感器设置的异构多机器人系统的互操作性的一块垫脚石。借助maplab 2.0,这个多功能的开源平台,可帮助开发、测试新模块和功能,并将其集成到一个成熟的SLAM系统中。
苏黎世理工最新!maplab2.0:模块化的多模态建图定位框架
|
22天前
|
传感器 算法 机器人
机器人SLAM建图与自主导航:从基础到实践
通过Gazebo平台和gmapping算法成功生成并保存了一张二维仿真环境地图,为后续的机器人自主导航实验奠定了基础。完整代码及更多细节可参考[GitHub仓库](https://github.com/Jieshoudaxue/ros_senior/tree/main/mbot_navigation/config/move_base)。
104 23
|
9月前
支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
【6月更文挑战第14天】华科等机构推出 UniAnimate 框架,能生成逼真的人类跳舞视频,尤其适合动画、虚拟偶像和游戏领域。该框架采用视频扩散模型,减少优化难度,确保时间一致性,且支持生成长达一分钟的高清视频。虽然存在动作不自然和计算成本高的问题,但已在实验中展现出优于现有技术的表现。[链接](https://arxiv.org/abs/2406.01188)
142 4
|
10月前
|
人工智能
姿态识别+康复训练矫正+代码+部署(AI 健身教练来分析深蹲等姿态)-2
姿态识别+康复训练矫正+代码+部署(AI 健身教练来分析深蹲等姿态)-2
|
10月前
|
机器学习/深度学习 人工智能 算法
姿态识别+康复训练矫正+代码+部署(AI 健身教练来分析深蹲等姿态)-1
姿态识别+康复训练矫正+代码+部署(AI 健身教练来分析深蹲等姿态)-1
|
10月前
|
小程序 开发者
游戏开发者的视觉盲区
游戏开发者的视觉盲区
81 0
|
编解码 NoSQL 关系型数据库
五脏俱全,搭建部署多人语音厅源码功能分析
首先,要搭建部署一个稳定成熟的多人语音厅源码,具体的实现方式可能因项目需求以及使用的工具而有所不同,下边来简单分析下。
五脏俱全,搭建部署多人语音厅源码功能分析
|
传感器 机器学习/深度学习 人工智能
动画制作效率提升80%!这个AI软件一键实现高精度视频动捕
动画制作效率提升80%!这个AI软件一键实现高精度视频动捕
241 0