Joint Commonsense and Relation Reasoning for Image and Video Captioning

发布者：开发者说 2020-02-17 14:15:36 1403

开发者说

+关注

视频介绍

【AAAI 2020 阿里巴巴论文】本文提出了一种联合常识和关系推理的图像视频文本描述生成方法。该方法通过迭代学习算法实现，交替执行以下两种推理方式：(1) 常识推理，将视觉区域根据常识推理，嵌入到语义空间中从而构成语义图；(2) 关系推理，将语义图通过图神经网络编码，生成图像视频文字描述。Image caption，作为视觉理解的一个研究方向，本质上研究的是视觉到语言（vision-to-language）的问题，模型需要在理解图像或者视频内容的基础上给出描述视觉内容的自然语言语句。这个任务在少儿的看图说话、视频网站的素材搜索以及短视频服务中的风格化标题等业务场景中有着重要的应用前景。

作者介绍

Jingyi Hou;Xinxiao Wu;筱恂;Yayun Qi; Yunde Jia;Jiebo Luo

相关视频

+关注

开发者说

文章

问答

视频

来源圈子

阿里论文

+ 订阅

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Joint Commonsense and Relation Reasoning for Image and Video Captioning

作者介绍