今天给大家介绍Facebook AI Research (FAIR)团队研究人员Ronghang Hu 和Amanpreet Singh合作发表在arxiv上的Unified Transformer框架:UniT,该框架可以同时进行多模态多任务预测。
UniT从跨领域的任务中学习最重要的任务,领域范围包括对象检测、语言理解和多模态推理等。UniT模型使用编码器-解码器架构,编码器对输入模态进行编码,使用共享的解码器对编码前的输入进行解码,然后使用task specific的输出头进行任务预测。模型使用端到端的联合训练,每项任务的损失都会被计算在内。与以前使用Transformer进行多任务学习的研究相比,UniT任务共享相同的模型参数,而不是在不同的任务上微调。UniT可以处理多种跨领域任务。实验证实,UniT在八个数据集上同时学习七个任务,都获得了比已有工作更好的性能。图一是UniT的任务框架。
图一:UniT的任务框架
UniT模型框架
UniT建立在Transformer编码器-解码器体系结构上,跨模态同时学习多个任务。每个输入模态都有一个单独的编码器,所有任务共享一个解码器,外加一个task specific任务头进行预测。图二是UniT模型的技术框架。UniT考虑两种输入模态:图像和文本。对于图像输入,UniT应用卷积神经网络提取视觉特征,然后用Transformer编码器进一步将视觉特征编码到隐藏状态中,以融合全局上下文信息。对于语言输入,UniT使用BERT,将输入单词(例如questions)编码为BERT的最后一层隐藏状态。UniT将输入模态编码成隐藏状态序列之后,在单个编码模态或两个编码模态的串联序列上应用Transformer解码器。最后,特征表示被传递到一个task specific的head上,例如一个简单的两层分类器,输出最终的预测。UniT可以很容易地扩展到更多的模态和输入。实验结果表明,UniT模型可以在8个数据集上联合学习7个不同的任务,并获得不错的效果。图二是UniT模型的技术框架。
图二:UniT模型技术框架
总结
UniT证明了transformer框架可以应用于多个领域,在一个编解码器中联合处理多个任务。UniT模型同时处理八个数据集中的七个任务,并通过一组共享参数在每个任务上都实现强大的性能。通Transformer架构,UniT模型朝着构建通用智能Agent迈出了一步,该智能Agent能够处理不同领域的广泛应用,包括视觉感知、语言理解和多种模式的推理。