Multi-QuestionLearningforVisualQuestionAnswering-云视频-阿里云开发者社区

【AAAI 2020 阿里巴巴论文】视觉问答(VQA)对计算机视觉和自然语言处理社区提出了巨大的挑战。现有的大多数方法在训练中单独考虑视频-问题对。然而，我们观察到，在VQA任务中，目标视频通常有多个问题(顺序生成或不顺序生成)，这些问题本身具有丰富的语义内在联系。为了探索这些关系，我们为VQA问题提出了一个新的范式，称为多问题学习(MQL)。受多任务学习的启发，MQL从多个问题中联合学习，并给出目标视频序列的相应答案。视频-问题对的学习表征，能普遍地被转移应用到新的问题上。我们进一步提出了一个有效的VQA框架，并为MQL设计了一个训练方法，其中专门设计的注意网络模型，刻画了输入视频和相应的问题之间的关系，使多个视频-问题对能够共同训练。该方法，在实际的淘宝业务中，正逐步运用于直播业务中的直播结构化理解上，具体来说，对应于直播间内，多个用户同时提出若干问题，模型进行内容分析，从而辅助相关业务的开展和辅助主播的相关应用。

作者介绍

昱奕;光雾;Dong Liu;涵空;孝恭;飘雪;Houqiang Li

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Multi-Question Learning for Visual Question Answering

作者介绍