开发者社区 > 阿里论文 > 视频 > 正文

Joint Commonsense and Relation Reasoning for Image and Video Captioning

发布者:开发者说 2020-02-17 14:15:36 1256
视频介绍

【AAAI 2020 阿里巴巴论文】本文提出了一种联合常识和关系推理的图像视频文本描述生成方法。该方法通过迭代学习算法实现,交替执行以下两种推理方式:(1) 常识推理,将视觉区域根据常识推理,嵌入到语义空间中从而构成语义图;(2) 关系推理,将语义图通过图神经网络编码,生成图像视频文字描述。Image caption,作为视觉理解的一个研究方向,本质上研究的是视觉到语言(vision-to-language)的问题,模型需要在理解图像或者视频内容的基础上给出描述视觉内容的自然语言语句。这个任务在少儿的看图说话、视频网站的素材搜索以及短视频服务中的风格化标题等业务场景中有着重要的应用前景。

作者介绍

Jingyi Hou;Xinxiao Wu;筱恂;Yayun Qi; Yunde Jia;Jiebo Luo