ICCV 2021 |首届 SoMoF 人体序列预测比赛冠军方案分享

简介: ICCV 2021 |首届 SoMoF 人体序列预测比赛冠军方案分享

111.gif

近日阿里巴巴淘系技术多媒体算法团队的同学,以大幅领先第二名的成绩获得了在 ICCV2021 上举办的第一届室外场景下的人体轨迹预测比赛( SoMoF


Challenge )的冠军,同时比赛论文被该 Workshop 接收。


作为计算机视觉领域的三大顶级会议之一, ICCV 是每年学界的重要事件。ICCV 全称为 International Conference on Computer Vision ,中文为国际计算机视觉大会。这个会议是由 IEEE 主办的全球最高级别学术会议,每两年在世界范围内召开一次,在业内具有极高的评价。而由斯坦福大学主办的第一届 SoMoF Challenge 以人体轨迹预测这一既有广阔应用前景又极具挑战的任务为主题,吸引了来自众多高校和工业界的参赛者。


本次Challenge中我们通过改进图卷积网络,应用轨迹信息作为输入,通过设计新颖的训练和数据处理策略,获得了2D数据集PoseTrack和3D数据集3DPW两个子任务上的冠军,并且在两个数据集上分别领先第二名5%和13%。


比赛地址:https://somof.stanford.edu/workshops/iccv21

论文地址:https://openaccess.thecvf.com/content/ICCV2021W/SoMoF/papers/Wang_Simple_Baseline_for_Single_Human_Motion_Forecasting_ICCVW_2021_paper.pdf


背景


随着计算机视觉研究的不断深入,许多识别类任务,如动作认别,姿态识别取得了重大的进展。为了进一步拓宽计算机视觉的应用场景,越来越多的研究者将注意力从“识别”类任务转移到“预测”类任务上。人体动作序列预测就是其中一个颇受关注的方向。

概括来说,动作序列预测要做的是,根据给定图像序列中的人体关节点的2D或3D坐标,预测接下来若干帧图像序列中的关节点的位置。值得一提的是,接下来若干帧的图像信息是不可见的。1.gif动作序列预测是一个很有应用前景,也极具挑战的研究方向。它的应用场景广泛,包括自动驾驶,人机交互,安防,AI健身教练等。举个例子,如果一辆行进中的自动驾驶汽车,通过观察斑马线上路人过马路时的画面,能够预测接下来他们的行动轨迹,那就能及时停车或者前进,减小交通事故发生的概率

2.jpg

同时这还是一个很有挑战的方向。由于室外场景的复杂性,人们自身行动的随意性,周围人和物的多变性,以及预测类任务本身自带的不确定性,都会增加未来时刻动作序列预测的难度。


本次比赛中,我们通过采用在解决手淘场景下的人体/人手姿态估计时提炼出的技术积累,结合动作序列任务本身的特性,设计了新的网络结构,采用了新颖的训练和数据处理策略,在此次比赛中获得了第一名的结果,具体方法将在下文介绍。



网络结构


我们的网络输入只有关节点的坐标序列。对于实验所用到的两个数据集来说,PoseTrack上,使用的是14个关节点的2D图像坐标,在3DPW数据集上,使用的是24个关节点的3D世界坐标。



实验中我们尝试增加了图像信息,效果都有所下降,原因可能是关节点本身已经是图像信息对关节点预测最有效最精简的信息,额外的图像信息分散了网络的关注点,反倒不利于网络的学习。


网络结构我们采用的是GCN结构。在输入的关节点序列进网络前,先经过一个DCT变换,将时域信息转换到频域。在GCN的最后,经过iDCT变换,将频域信息转换回到时域中,即为预测的结果。


GCN相比RNN/LSTM的优势是,所有帧的预测结果可以一次预测出来,不需要一帧一帧的连续多帧预测。

3.jpg


相关文章
|
3月前
|
人工智能 算法 数据安全/隐私保护
无表情人脸预测政治信仰,AI准确率惊人!斯坦福研究登国际顶刊
【8月更文挑战第10天】斯坦福大学的研究揭示了面部识别技术的新应用:通过分析无表情人脸图片预测政治倾向。研究在《American Psychologist》发表,表明人类评估者与AI均能在控制人口统计学特征的情况下准确预测政治取向,相关系数分别为0.21和0.22。利用年龄、性别和种族信息时,算法准确性提升至0.31。研究还发现保守派倾向于有更大的下半部面部。尽管成果引人注目,但其局限性和潜在的隐私问题仍需审慎考量。
142 62
|
2月前
|
人工智能 安全 数据处理
21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
【9月更文挑战第2天】近年来,人工智能在医学领域的应用取得显著进展,特别是医学视觉问答(VQA)技术。德州大学与美国国立卫生研究院(NIH)联合发布的Medical-CXR-VQA数据集包含21.5万张X光图像和78万个问题,是当前最大的医学VQA数据集之一。其多样化的问题类型和高质量的标注,为研究者提供了丰富资源,推动医学视觉问答技术的发展。该数据集的开放共享促进了领域内的合作与交流,并有望提升临床诊断和病情评估的效率与质量,成为医学人工智能领域的重要里程碑。然而,数据隐私、标注一致性和模型可解释性等问题仍需进一步解决。
82 13
|
5月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
191 7
|
机器学习/深度学习 算法 数据可视化
“华为杯”第十八届中国研究生数学建模竞赛D题:抗乳腺癌候选药物的优化建模(一等奖)
“华为杯”第十八届中国研究生数学建模竞赛D题:抗乳腺癌候选药物的优化建模(一等奖)
210 0
|
算法 数据可视化 自动驾驶
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
181 0
|
存储 机器学习/深度学习 编解码
CVPR录用+NTIRE冠军!清华提出首个高光谱图像重建Transformer
CVPR录用+NTIRE冠军!清华提出首个高光谱图像重建Transformer
431 0
|
达摩院 vr&ar 计算机视觉
达摩院CVPR2023人脸重建论文HRN解读——REALY榜单冠军模型
前言高保真 3D 人脸重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。 本文中,我们将介绍来自达摩院的CVPR2023最新的人脸重建论文,该工作在单图人脸重建榜单REALY上取得正脸、侧脸双榜第一,并在其他多个数据集中取得了SO
3294 0
|
编解码 算法 视频直播
CVPR2022 前沿研究成果解读:基于生成对抗网络的深度感知人脸重演算法
《基于生成对抗网络的深度感知人脸重演算法 》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)
1095 0
CVPR2022 前沿研究成果解读:基于生成对抗网络的深度感知人脸重演算法
|
机器学习/深度学习 人工智能 编解码
Science封面重磅!3981小时重建了500000立方微米小鼠大脑,人造神经网络里程碑式研究!
Science封面重磅!3981小时重建了500000立方微米小鼠大脑,人造神经网络里程碑式研究!
185 0
Science封面重磅!3981小时重建了500000立方微米小鼠大脑,人造神经网络里程碑式研究!
|
传感器 机器学习/深度学习 人工智能
AAAI-17获奖论文深度解读(下):蒙特卡罗定位和推荐系统
前天机器之心的头条文章深度解读了 AAAI-17 大会评出的杰出论文和 Blue Sky Idea Awards 获奖论文,今天机器之心分析师则为我们带来了对 AAAI-17 两篇经典论文奖获奖论文的深度解读。论文原文可点击文末「阅读原文」下载。
490 0
 AAAI-17获奖论文深度解读(下):蒙特卡罗定位和推荐系统