ECCV 2018丨YOLO遇上OpenPose,近200FPS的高帧数多人姿态检测

简介:

在高帧数下,如何实现人体姿态检测?

下面这条刷屏的twitter视频给出了答案。

60841ac9cf6f7c48691851a19aa007bbd141452e

这是今年ECCV上的一篇名为《Pose Proposal Networks》的论文,作者是日本柯尼卡美能达公司的関井大気(Taiki SEKII),结合了去年CVPR上的YOLO和CMU的OpenPose,创造出的新方法,能够实现高帧数视频中的多人姿态检测。

高帧数,无压力

944a99b14ed42531c7bd072f123c2a5a35312790

而其他方法,比如NIPS 2017 的AE(Associative embedding)、ICCV 2017的RMPE(Regional multi-person pose estimation)、CVPR 2017的PAF(Realtime multi-person 2D pose estimation using part affinity fields),都无法实现高帧数尤其是100以上帧数视频的姿态检测。

93ee913fe102f8f2c5044e6cc835f251fd0d56c2

在COCO数据集上也不虚,相比谷歌PersonLab能在更高帧数下运行。

635b1a9445bf94b4af06fe5c3850448084411ceb

来看下具体数据,在头、肩、肘部位和整体上半身识别中超过了其他方法,整体得分也不虚。

神奇“体位”大冒险

另外,常规的姿态检测十分容易出错的“体位”中,该方法也可以规避。

比如从天上跳伞下来这种奇怪的姿势:

93acd5e4962d164e89901de5bb44eec2552f27f3

人数过多的拥挤场景:

db3c1396959c754bcef7d6dc3d3fc770e374ebe9

还有,两个人重叠的图像。

6cd55a4b8542b2869e48975ed47b0242d517261d

注意,右侧站立的女子和她前面在瑜伽垫上的人,完完全全分开了,不会闹出下面这种胳膊腿儿搞错的笑话。

151ea0a8fe07101a036217bc7f9273c49c57df16

原理

bffe407571dc0c7ff873c0d9543e45a4aa53ae66

这是基于ResNet-18的PPN对多人姿势检测的过程:

a) 输入图像;
b) 从输入图像中检测部分边界框;
c) 检测出肢体;
d) 区分图中每个人。

9643b8b9afa4da0e065b31bce4d0d3accaac09c8

这篇论文的方法是先将图片分割为较小的网格,使用较小的网络对每一幅网格图片进行单次物体检测范例,之后通过区域提议(region proposal)框架将姿态检测重定义为目标检测问题。

之后,使用单次CNN直接检测肢体,通过新颖的概率贪婪解析步骤,生成姿势提议。

区域提案部分被定义为边界框检测(Bounding Box Detections),大小和被检测人身材成比例,并且可以仅使用公共关键点注释进行监督。

整个架构由单个完全CNN构成,具有相对较低分辨率的特征图,并使用专为姿势检测性能设计的损耗函数直接进行端到端优化,此架构称为姿态提议网络(Pose Proposal Network,PPN)。PPN借鉴了YOLO的优点。


原文发布时间为:2018-09-9

本文作者:凹非寺 

本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
|
Web App开发 安全 Linux
【独家揭秘2025】VMware Workstation Pro虚拟机:免费安装教程大放送,一键解锁操作系统模拟神器!
VMware Workstation Pro 是由威睿(VMware)公司开发的一款功能强大的桌面虚拟化软件,允许用户在同一台物理计算机上同时运行多个操作系统,如Windows、..
1809 2
【独家揭秘2025】VMware Workstation Pro虚拟机:免费安装教程大放送,一键解锁操作系统模拟神器!
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
1021 14
|
存储 编解码 前端开发
阿里云服务器2核4G、4核8G、8核16G选择经济型、通用算力型和计算型选择参考
如果我们想购买的云服务器配置是2核4G、4核8G、8核16G配置,目前在阿里云的活动中,可选的实例规格除了轻量应用服务器之外,有经济型e、通用算力型u1、计算型c7、计算型c8y等几个实例规格可选,由于不同实例规格的性能和价格及适用场景不同,因此,有的新手用户可能不知道如何选择,本文将讨论在2核4G、4核8G、8核16G配置下,如何选择经济型、通用算力型和计算型实例,以供参考。
|
移动开发 前端开发 Java
第一次用java17记录运行ruoyi-vue-plus5.X版本
第一次用java17记录运行ruoyi-vue-plus5.X版本
548 0
|
计算机视觉 异构计算
目标检测实战(四):YOLOV4-Tiny 源码训练、测试、验证详细步骤
这篇文章详细介绍了使用YOLOv4-Tiny进行目标检测的实战步骤,包括下载源码和权重文件、配置编译环境、进行简单测试、训练VOC数据集、生成训练文件、准备训练、开始训练以及多GPU训练的步骤。文章还提供了相应的代码示例,帮助读者理解和实践YOLOv4-Tiny模型的训练和测试过程。
1538 0
|
监控 Java 应用服务中间件
Spring Boot应用的部署与扩展
Spring Boot应用的部署与扩展
|
开发者
备考两年,关于软考的经验都在这了
本文分享了作者备考软考两年的一些学习经验,并配有知识点的思维导图,期望能对各位备考同学有所帮助。
|
存储 监控 物联网
列族存储
列族存储
613 1
|
机器学习/深度学习 算法 计算机视觉
openpose的一些个人理解
一直都是在做一些目标检测的研究工作,近期开始看一些有关姿态检测的内容,其中最经典的就是openpose这个框架,后面很多动作识别、姿态检测也大多是在该网络上进行改进,比如Real-time 2D Multi-Person Pose Estimation on CPU 这篇论文,在原OpenPose基础上进行了轻量处理,我也用这代码跑了一下,效果也不错。
929 0
openpose的一些个人理解
|
IDE 安全 Java
运行 Spring Boot 应用的几种方式
你好看官,里面请!今天笔者讲的是运行 Spring Boot 应用的几种方式。不懂或者觉得我写的有问题可以在评论区留言,我看到会及时回复。 注意:本文仅用于学习参考,不可用于商业用途,如需转载请跟我联系。
508 2