ECCV 2018丨YOLO遇上OpenPose,近200FPS的高帧数多人姿态检测

简介:

在高帧数下,如何实现人体姿态检测?

下面这条刷屏的twitter视频给出了答案。

60841ac9cf6f7c48691851a19aa007bbd141452e

这是今年ECCV上的一篇名为《Pose Proposal Networks》的论文,作者是日本柯尼卡美能达公司的関井大気(Taiki SEKII),结合了去年CVPR上的YOLO和CMU的OpenPose,创造出的新方法,能够实现高帧数视频中的多人姿态检测。

高帧数,无压力

944a99b14ed42531c7bd072f123c2a5a35312790

而其他方法,比如NIPS 2017 的AE(Associative embedding)、ICCV 2017的RMPE(Regional multi-person pose estimation)、CVPR 2017的PAF(Realtime multi-person 2D pose estimation using part affinity fields),都无法实现高帧数尤其是100以上帧数视频的姿态检测。

93ee913fe102f8f2c5044e6cc835f251fd0d56c2

在COCO数据集上也不虚,相比谷歌PersonLab能在更高帧数下运行。

635b1a9445bf94b4af06fe5c3850448084411ceb

来看下具体数据,在头、肩、肘部位和整体上半身识别中超过了其他方法,整体得分也不虚。

神奇“体位”大冒险

另外,常规的姿态检测十分容易出错的“体位”中,该方法也可以规避。

比如从天上跳伞下来这种奇怪的姿势:

93acd5e4962d164e89901de5bb44eec2552f27f3

人数过多的拥挤场景:

db3c1396959c754bcef7d6dc3d3fc770e374ebe9

还有,两个人重叠的图像。

6cd55a4b8542b2869e48975ed47b0242d517261d

注意,右侧站立的女子和她前面在瑜伽垫上的人,完完全全分开了,不会闹出下面这种胳膊腿儿搞错的笑话。

151ea0a8fe07101a036217bc7f9273c49c57df16

原理

bffe407571dc0c7ff873c0d9543e45a4aa53ae66

这是基于ResNet-18的PPN对多人姿势检测的过程:

a) 输入图像;
b) 从输入图像中检测部分边界框;
c) 检测出肢体;
d) 区分图中每个人。

9643b8b9afa4da0e065b31bce4d0d3accaac09c8

这篇论文的方法是先将图片分割为较小的网格,使用较小的网络对每一幅网格图片进行单次物体检测范例,之后通过区域提议(region proposal)框架将姿态检测重定义为目标检测问题。

之后,使用单次CNN直接检测肢体,通过新颖的概率贪婪解析步骤,生成姿势提议。

区域提案部分被定义为边界框检测(Bounding Box Detections),大小和被检测人身材成比例,并且可以仅使用公共关键点注释进行监督。

整个架构由单个完全CNN构成,具有相对较低分辨率的特征图,并使用专为姿势检测性能设计的损耗函数直接进行端到端优化,此架构称为姿态提议网络(Pose Proposal Network,PPN)。PPN借鉴了YOLO的优点。


原文发布时间为:2018-09-9

本文作者:凹非寺 

本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
|
7月前
|
机器学习/深度学习 监控 PyTorch
YOLOv7+姿态估计Pose+tensort部署加速
YOLOv7+姿态估计Pose+tensort部署加速
|
机器学习/深度学习 传感器 人工智能
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
|
2月前
|
机器学习/深度学习 监控 机器人
人体姿态估计技术的理解(Human Pose Estimination)
人体姿态估计技术的理解(Human Pose Estimination)
72 0
|
7月前
|
存储 传感器 数据安全/隐私保护
CVPR 2024 Highlight:基于单曝光压缩成像,不依赖生成模型也能从单张图像中重建三维场景
【5月更文挑战第15天】CVPR 2024会议上,清华大学研究人员提出的SCINeRF利用单曝光压缩成像(SCI)技术结合神经辐射场(NeRF)进行3D场景重建。SCI以低成本捕捉高维数据,而SCINeRF将SCI的成像过程融入NeRF训练,实现复杂场景的高效重建。实验显示,该方法在图像重建和多视角图像生成方面取得优越性能,但实际应用仍需解决SCI系统设计、训练效率和模型泛化等挑战。[Link: https://arxiv.org/abs/2403.20018]
177 2
|
机器学习/深度学习 机器人 vr&ar
照片转视频,像航拍一样丝滑,NeRF原班人马打造Zip-NeRF(1)
照片转视频,像航拍一样丝滑,NeRF原班人马打造Zip-NeRF
362 0
|
存储 机器学习/深度学习 人工智能
YOLOv5永不缺席 | YOLO-Pose带来实时性高且易部署的姿态估计模型!!!
YOLOv5永不缺席 | YOLO-Pose带来实时性高且易部署的姿态估计模型!!!
400 0
|
机器学习/深度学习 编解码
ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决
ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决
262 0
|
机器学习/深度学习 编解码 算法
CVPR 2023 | IGEV-Stereo & IGEV-MVS:双目立体匹配网络新SOTA!
CVPR 2023 | IGEV-Stereo & IGEV-MVS:双目立体匹配网络新SOTA!
798 0
|
传感器 编解码 测试技术
CVPR'2023 | Nerf-Stereo: 利用NeRF来训练双目立体匹配网络的新范式!
CVPR'2023 | Nerf-Stereo: 利用NeRF来训练双目立体匹配网络的新范式!
603 0
|
机器学习/深度学习 人工智能 算法
【Pytorch神经网络理论篇】 33 基于图片内容处理的机器视觉:目标检测+图片分割+非极大值抑制+Mask R-CNN模型
目标检测任务的精度相对较高,主要是以检测框的方式,找出图片中目标物体所在的位置。目标检测任务的模型运算量相对较小,速度相对较快。
337 0