AAAI 2020 | 北理工&阿里文娱:结合常识与推理,更好地理解视频并生成描述

简介: 人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办,不久之前,AAAI 2020 公布论文介绍结果:今年最终收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。本文对北京理工大学、阿里文娱摩酷实验室合作的论文《Joint Commonsense and Relation Reasoning for Image and Video Captioning》进行解读。

微信图片_20211202195033.jpg


论文链接:https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf


在此论文中,作者们提出了一种联合常识和关系推理的图像视频文本描述生成方法。该方法通过迭代学习算法实现,交替执行以下两种推理方式:(1) 常识推理,将视觉区域根据常识推理,嵌入到语义空间中从而构成语义图;(2) 关系推理,将语义图通过图神经网络编码,生成图像视频文字描述。


一、研究动机


图像视频的文字描述本质上是视觉到语言 (Vision-to-Language,即 V2L) 的问题。作为视觉理解 (Visual Understanding) 的一个研究方向,连接着视觉与语言,模型需要在理解图像视频的基础上给出描述视觉内容的自然语言语句。该任务在人机交互或者素材检索中有着重要的应用前景。比如在图 1(a) 中,老师要求幼儿园或者低年级的小朋友们看图说故事,具备图像视频的文字描述技术的机器可以辅助教学,与小朋友形成互动。在图 1(b) 中,一个视频网站的编辑运营人员试图搜索「易烊千玺跳舞」或者「在海边散步的恋人」的视频片段。 

微信图片_20211202195037.jpg

图 1(a)

微信图片_20211202195040.jpg


图 1(b)


推理视觉关系有助于提高图像视频文字描述模型的性能。现有方法 [1-3] 通常使用预训练的物体或关系检测器来提取场景图,再推理图中各物体之间的关系。该类模型依赖鲁棒的物体或关系检测器,遇到遮挡、小物体等情况会导致检测结果不准确,进而影响文字描述的生成。在现实生活中,人们可以通过常识(先验知识)来联想推理一些不易识别或不可见的事物。如图 2 所示,人们通常会用「Several people waiting at a race holding umbrellas(一些打着雨伞的人在等一场比赛)」来描述图中内容,但实际上并不能从图像中直接观测到「race(比赛)」这个语义。然而可以通过观测到的「人群围在马路两旁」来推断出这是一场比赛。而这个推断的依据就是「人群围观」和「比赛」之间的关联常识。受此启发,本文作者提出利用常识引导推断图像视频中的语义关系,进而生成文字语句的描述方法。该方法联合关系与常识推理,不依赖任何物体或关系检测器,并且在训练时也不需要场景图的标注,这样的好处是:(1) 通过额外知识的引导,探索获得难以从视觉信息中学到的物体或关系;(2) 通过端到端的学习,可以保持图像视频和文字描述的语义一致性。 

微信图片_20211202195048.jpg

图 2 基于常识推理的图像视频文字描述生成示例图


二、方法


本文提出的联合推理方法,结合以下两种推理方式:(1) 常识推理,将图像视频区域根据常识推理,嵌入到语义空间中从而构成语义图;(2) 关系推理,将语义图通过图神经网络(graph convolutional network, GCN)编码,生成图像视频的文字描述。如图 3 所示,该方法包含三个模块:视觉映射与知识映射、常识推理、关系推理。在视觉映射与知识映射模块中,首先稠密采样图像或视频的局部区域,将这些区域根据表观特征聚类得到候选语义(即物体、属性和关系)。然后分别使用视觉映射与知识映射学习候选语义的视觉特征向量和知识向量。在常识推理模块中,根据知识图谱来挑选候选语义组成语义图。在关系推理模块中,使用图卷积网络和基于序列的语言模型将给定的语义图经过关系推理得到图像或视频的文字描述。 

微信图片_20211202195052.jpg

图 3 联合常识和关系推理方法示意图


2.1 视觉映射与知识映射


视觉映射是提取图像或视频的局部特征。首先稠密采样每个图像(视频)的 2D 图像块(3D 视频块),然后使用预训练的 CNN 提取特征,最后将这些特征聚类,用聚类中心表示候选语义的视觉特征向量。知识映射是将图像(视频)的候选语义映射到知识空间上。首先,将每个图像(视频)的视觉特征通过多头注意力机制(multi-head attention mechanism)映射到语义概念空间(每个图像视频的真值语义是直接由其真值句子通过词类标注工具自动得到),得到语义概念;然后学习这些语义概念的知识嵌入(knowledge embedding);最后将知识嵌入向量作为基,语义概念的概率作为权重系数,加权相加后得到图像(视频)候选语义的知识向量。


2.2 联合常识和关系推理


给定图像(视频)候选语义的视觉特征向量和知识向量,迭代执行常识和关系推理训练视频(图像)文字描述模型,如图 4 所示。 

微信图片_20211202195055.jpg

图 4 迭代执行常识和关系推理示意图


具体地,常识推理包含语义映射(semantic mapping)和准则(criterion)模块,语义映射将图像视频的视觉特征和知识向量表达为语义特征,而常识推理的准则根据 [4] 设置为:

微信图片_20211202195058.jpg


其中 s^h,s^r 和 s^t 分别为头实体(物体语义),关系(关系语义)和尾实体(物体或属性语义)的语义特征,W 为权重矩阵,Re(·) 和 Im(·) 分别表示取实部和虚部。根据该准则来选取三元组构成图像(视频)的语义图。
关系推理由 GCN+LSTM 模块实现,使用 [5] 提出的 GCN 得到关系敏感(relation-aware)的三元组特征,将三元组的语义特征级联,输入到 top-down attention LSTM [6] 中得到文字描述。
通过过端到端的方式联合训练本文模型,设置目标函数为微信图片_20211202195103.jpg微信图片_20211202195105.jpg

其中,为交叉熵损失,用于学习生成句子;

微信图片_20211202195108.jpg,指导学习三元组的语义特征,由常识推理中的准则来度量。


由于使用常识推理准则来构建语义图是一个「硬分配」任务,直接反向求导优化效果不佳。本文提出迭代推理算法,交替执行基于常识推理的语义图生成以及利用常识和关系推理的文字描述生成来优化模型,从而使模型的端到端训练更加稳定,如算法 1 所示。

微信图片_20211202195107.jpg

算法 1


三、实验


在 MSVD 视频数据集和 MSCOCO 图像数据集上进行了实验。结果如表 1 和表 2 所示。在 MSVD 数据集上的结果表明,即便与使用了检测器的方法比较,本文方法的性能也十分优越。在 MSCOCO 数据集上,由于检测器在 MSCOCO 目标检测集上预训练,所以检测结果比较准确。为了公平起见,本文加入了直接使用检测器提取局部图像块的实验,结果明显高于所有 state-of-the-art 方法。 

微信图片_20211202195111.jpg

表 1 MSVD 数据集上各方法的对比结果 

微信图片_20211202195114.jpg

表 2 MSCOCO 数据集上各方法的对比结果


本文还在 MSVD 数据集上进行了消融实验,结果如表 3 所示。其中「Anderson et al. (2019)」是 baseline 方法,相当于本文方法去掉了常识和关系推理;「Ours w/o CR」方法直接使用预训练检测器,来代替常识推理生成语义图;「Ours w/o RR」方法是去掉了关系推理,即 GCN。实验结果表明了本方法各个模块的有效性,值得注意的是,「Ours w/o CR」方法的性能甚至低于「Anderson et al. (2019)」,可见在视频上使在图像域预训练的检测器得到的语义图直接进行关系推理会导致性能下降。 

微信图片_20211202195116.jpg

表 3 MSVD 数据集上消融实验的结果


本文还展示了 MSVD 数据集和 Youku-VC 视频中文描述数据集的定性实验结果,如图 5 所,其中「o-r-o」和「o-r-a」分别表示语义图中的「物体-关系-物体」和「物体-关系-属性」。由图可见,本文方法可以推断识别出一些不易检测(遮挡,小尺寸)的物体,如图 (b) 中的「makeup」,(d) 中的「woman」,和 (f) 中的「话筒」。 

微信图片_20211202195121.jpg

图 5 MSVD 和 Youku-VC 数据集上的定性实验结果


四、总结


本文提出了一种联合常识和关系推理的方法用于图像视频的文字描述生成。该方法利用先验知识交替迭代执行常识推理和关系推理,生成语义图来学习物体之间的语义关系,从而准确描述图像视频的内容。在图像和视频数据集上的实验表明,该方法优于其他最新方法。



参考文献[1]Li, X.; and Jiang, S. Know more say less: Image captioning based on scene graphs. IEEE TMM, 2019.[2]Yao, T.; Pan, Y.; Li, Y.; and Mei, T. Exploring visual relationship for image captioning. ECCV, 2018.[3]Yang, X.; Tang, K.; Zhang, H,; and Cai, J. Auto-encoding scene graphs for image captioning. CVPR, 2019.[4]Trouillon, T.; Welbl, J.; Riedel, S.; Gaussier, É.; and Bouchard, G. Complex embeddings for simple link prediction. In ICML, 2018.[5]Johnson, J.; Gupta, A.; and Fei-Fei, L. Image generation from scene graphs. CVPR, 2018.[6]Anderson, P.; He, X.; Buehler, C.; Teney, D.; Johnson, M.; Gould, S.; and Zhang, L. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2019.



12 月 28 日下午,阿里文娱技术发展部将联合北理工、机器之心共同举办 AAAI2020 论文解读会。欢迎感兴趣的读者们点击阅读原文参与报名。

相关文章
|
7天前
|
机器学习/深度学习 人工智能
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入一键生成时代
智源研究院推出OmniGen,一种全新的扩散模型,旨在克服现有图像生成模型的局限性。OmniGen能处理文本到图像、图像编辑等多任务,具备高效、简洁的架构,仅含VAE和预训练Transformer。通过大规模统一数据集X2I训练,OmniGen展现了强大的多任务处理能力和知识转移能力,适用于虚拟试穿、图像修复等多个领域。尽管如此,OmniGen在特定任务上的性能、训练资源需求及可解释性等方面仍面临挑战。
41446 20
|
27天前
|
人工智能 自然语言处理 数据库
RAG 技术:让 AI 从 “书呆子” 变身 “开卷小天才”!
鳄叔介绍了RAG(检索增强生成)技术,这是一种让AI既能查资料又能灵活作答的方法,如同“开卷考试”的学霸。RAG结合了检索能力和生成能力,使AI能够实时获取最新信息,提供更专业、精准的回答,广泛应用于企业客服、法律咨询、医疗诊断和教育等领域。
|
6月前
|
机器学习/深度学习 人工智能 算法
【让AI写高考AI话题作文】看各大模型的回答
【让AI写高考AI话题作文】看各大模型的回答
|
7月前
|
人工智能 搜索推荐
杨笛一新作:社恐有救了,AI大模型一对一陪聊,帮i人变成e人
【4月更文挑战第24天】杨笛一团队研发的AI大模型,以“AI伙伴”和“AI导师”框架帮助社恐人群提升社交技能。通过模拟真实场景和个性化反馈,该方法降低训练门槛,增强学习者自信。但也有挑战,如保持AI模拟的真实性,防止反馈偏见,并避免过度依赖。研究强调,AI应作为辅助工具而非替代。[论文链接](https://arxiv.org/pdf/2404.04204.pdf)
85 1
|
人工智能 算法 机器人
AI技术让手办「整活」:3D建模居然可以这样简单
AI技术让手办「整活」:3D建模居然可以这样简单
236 0
AI技术让手办「整活」:3D建模居然可以这样简单
|
机器学习/深度学习 人工智能 自然语言处理
3 千字浅谈:AI 之巅,ChatGPT 之背后
AI 发展经历多个里程碑,最早可以追溯到 1950 年代,早期人们开始探索 AI 即人工智能的概念,后来就开发了一些早期的处理语言,比如 ELIZA;
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT成功背后的技术原因及其对生命科学领域的启发
ChatGPT成功背后的技术原因及其对生命科学领域的启发
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法
924 0
|
人工智能 编解码 自然语言处理
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
185 0
|
机器学习/深度学习 人工智能 算法
🏆字节跳动安全Ai挑战赛-小样本赛道方案总结
🏆字节跳动安全Ai挑战赛-小样本赛道方案总结
477 0
🏆字节跳动安全Ai挑战赛-小样本赛道方案总结