【AAAI 2020 阿里巴巴论文】视觉问答(VQA)对计算机视觉和自然语言处理社区提出了巨大的挑战。现有的大多数方法在训练中单独考虑视频-问题对。然而,我们观察到,在VQA任务中,目标视频通常有多个问题(顺序生成或不顺序生成),这些问题本身具有丰富的语义内在联系。为了探索这些关系,我们为VQA问题提出了一个新的范式,称为多问题学习(MQL)。受多任务学习的启发,MQL从多个问题中联合学习,并给出目标视频序列的相应答案。视频-问题对的学习表征,能普遍地被转移应用到新的问题上。我们进一步提出了一个有效的VQA框架,并为MQL设计了一个训练方法,其中专门设计的注意网络模型,刻画了输入视频和相应的问题之间的关系,使多个视频-问题对能够共同训练。该方法,在实际的淘宝业务中,正逐步运用于直播业务中的直播结构化理解上,具体来说,对应于直播间内,多个用户同时提出若干问题,模型进行内容分析,从而辅助相关业务的开展和辅助主播的相关应用。
昱奕;光雾;Dong Liu;涵空;孝恭;飘雪;Houqiang Li