CVPR 2022 | GEN-VLKT:基于预训练知识迁移的HOI检测方法

简介: CVPR 2022 | GEN-VLKT:基于预训练知识迁移的HOI检测方法

1.gif

近日,阿里巴巴大淘宝技术多媒体算法团队与计算机视觉青年学者刘偲教授团队合作论文:《GEN-VLKT: Simplify Association and Enhance Interaction Understanding for HOI Detection》 被CVPR 2022接收。CVPR全称为IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition)。作为计算机视觉领域最负盛名的顶级学术会议,CVPR每年吸引大量研究机构及高校等参与其中。今年CVPR共收到8161篇有效论文投稿,录用2067篇,录用率为25.33%。本文在业界首次将大规模预训练模型的海量数据中蕴含的丰富信息知识迁移到HOI检测任务,单模型刷新了通用(Regular)和零样本(Zero-Shot)双任务的SOTA指标。


动机

人物交互关系检测(Human-Object Interaction Detection, HOI)存在两个核心问题:人-物关联(human-object association)和关系理解(interaction understanding)。我们分别在这两个核心问题上设计方案,整体如图1所示。
在人-物关联方面,传统两分支(two-branch)方法需要复杂且耗时的后处理,而单分支(single-branch)方法采用的统一特征造成了多任务的相互干扰。我们提出了GEN(Guided-Embedding Network)结构,通过引入位置引导(position Guided Embedding,p-GE)和实体引导(instance Guided Embedding, i-GE),实现了避免后处理的特征解耦的两分支结构。
在关系理解方面,传统方法受数据长尾分布影响严重,也缺乏零样本(Zero-Shot)发现能力。我们设计了VLKT(Visual-Linguistic Knowledge Transfer)训练策略,通过迁移大规模图文数据预训练模型CLIP中蕴含的知识,增强对交互关系的理解,提升零样本理解能力。

图片.pngimage.gif

图 1:整体流程示意图


方法

在人-物关联方面,图2显示了我们设计的GEN结构框架。我们采用基于transformer的HOI检测器来实现我们的设计,并使用了DETR [1]的基础模型结构。在这个结构中,N层解码器把视觉编码器输出的特征和一系列可学习的输入查询query向量作为输入。我们设计了实体解码器和关系解码器并行的两分支结构。

image.gif图片.png

图2:Guided-Embedding Network (GEN)框架图



图片.png
图片.png

这样,实体解码器和关系解码器的解码特征一一匹配,可以在没有后处理条件下预测HOI三元组。


在关系理解方面,如图3所示,我们引入了大规模预训练模型CLIP[2],提出了VLKT训练策略用于增强关系理解。


image.gif图片.png

图3:用于解码器的Visual-Linguistic Knowledge Transfer (VLKT)框架图


图片.png


图片.png

图片.png实验

如表1,我们在HICO-DET数据集[3]上验证了三种参数量的GEN-VLKT,效果超过了全部已知的“从底到上”和“自顶而下”方法,在不使用人体关键点和语言特征等额外特征的情况下,最高指标达到了34.95 mAP。


图片.pngimage.gif

表1:HICO-Det数据集Regular任务实验结果


如表2,GEN-VLKT在V-COCO数据集[4]上同样达到了SOTA效果,Scenario 1的role mAP为63.91,Scenario 2的role mAP为65.89。

图片.png

图片.png表2:V-COCO数据集Regular任务实验结果


如表3,GEN-VLKT在多种设置的Zero-Shot任务上,都取得了大幅领先以往SOTA的结果。得益于VLKT的知识迁移训练策略,我们在类别不可见(Unseen)部分的评估中,获得了较强的零样本发现能力。


image.gif图片.png

表3:HICO-Det数据集Zero-Shot任务实验结果


表4展示了消融实验结果。GEN结构中的p-GE和i-GE提升了人-物关联,进而提升了指标。VLKT中的CLIP文本编码器来分别初始化交互分类器和物体分类器,以及CLIP视觉编码器来知识蒸馏视觉特征,都促进了对关系交互的理解。知识蒸馏在损失函数下获得了最佳性能。


图片.pngimage.gif

表4:消融实验

 

图4显示了GEN-VLKT的可视化特征。特征图显示了human query,object query和interaction query实现了很好的特征解耦,特征分别集中在了人体边缘、物体边缘和人-物动作交互区域。


图片.pngimage.gif

图4:可视化特征图


总结


本文从人-物关联和关系理解两方面优化人-物关系检测HOI任务,提出了GEN-VLKT架构,通过特征引导机制来实现没有后处理的特征解耦的并行两分支结构,通过引入大规模预训练模型CLIP的海量知识迁移来实现对交互关系的增强理解,使得模型具备更好的零样本发现能力。本文以单模型刷新了HOI领域的通用(Regular)和零样本(Zero-Shot)双任务的SOTA指标。相关算法在大淘宝内容理解业务中落地应用,如点淘种草标签、直播类目标签等。


Reference


[1] End-to-end object detection with transformers. In ECCV, 2020.

[2] Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Learning to detect human-object interactions. In WACV, 2018.

[4] Visual semantic role labeling. arXiv preprint arXiv:1505.04474, 2015.

[5] Mining the benefits of two-stage and one-stage hoi detection. In NIPS, 2021.


团队介绍

大淘宝技术-内容算法–内容理解团队,依托大淘宝数⼗亿级的视频数据,业务上支持淘宝直播、逛逛和点淘等淘系核心业务,团队成员近两年参加CVPR、ICCV等顶会竞赛获得6项冠军,技术累积在计算机视觉顶会期刊如NIPS、CVPR、TPAMI、TIP、MM等发表论文10余篇。

相关文章
|
数据可视化 计算机视觉
ICCV2021 | TOOD:任务对齐的单阶段目标检测
单阶段目标检测通常通过优化目标分类和定位两个子任务来实现,使用具有两个平行分支的头部,这可能会导致两个任务之间的预测出现一定程度的空间错位。本文提出了一种任务对齐的一阶段目标检测(TOOD),它以基于学习的方式显式地对齐这两个任务。
ICCV2021 | TOOD:任务对齐的单阶段目标检测
|
3月前
|
计算机视觉
ECCV2024 Oral:第一视角下的动作图像生成,Meta等提出LEGO模型
【10月更文挑战第25天】Meta公司提出了一种名为LEGO的新模型,旨在从第一视角生成动作图像,以促进技能传递。LEGO结合了视觉大型语言模型和扩散模型,通过微调和生成技术,实现了更准确的动作图像生成。该研究已在ECCV2024上被选为口头报告。
48 2
|
4月前
|
机器学习/深度学习 计算机视觉
TPAMI 2024:计算机视觉中基于图神经网络和图Transformers的方法和最新进展
【10月更文挑战第3天】近年来,图神经网络(GNNs)和图Transformers在计算机视觉领域取得显著进展,广泛应用于图像识别、目标检测和场景理解等任务。TPAMI 2024上的一篇综述文章全面回顾了它们在2D自然图像、视频、3D数据、视觉与语言结合及医学图像中的应用,并深入分析了其基本原理、优势与挑战。GNNs通过消息传递捕捉非欧式结构,图Transformers则结合Transformer模型提升表达能力。尽管存在图结构构建复杂和计算成本高等挑战,但这些技术仍展现出巨大潜力。论文详细内容见:https://arxiv.org/abs/2209.13232。
254 3
|
9月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
216 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
9月前
|
编解码 算法 知识图谱
ICCV 2023 | DAT:利用双重聚合的Transformer进行图像超分
ICCV 2023 | DAT:利用双重聚合的Transformer进行图像超分
213 0
|
机器学习/深度学习 监控 算法
|
机器学习/深度学习 达摩院 监控
达摩院OpenVI-视频目标跟踪ICASSP 2023 Oral 渐进式上下文Transformer跟踪器 ProContEXT
视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。本文将做较为详细的介绍说明。
772 1
|
机器学习/深度学习 计算机视觉
经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(一)
经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(一)
134 0
|
编解码 数据可视化 计算机视觉
经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(二)
经典Transformer | CoaT为Transformer提供Light多尺度的上下文建模能力(附论文下载)(二)
209 0
|
数据可视化 计算机视觉
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(二)
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(二)
148 0