【论文速递】 MM2022 - : 多模态情绪识别中的解构表示学习
#
【论文原文】:MM2022 - Disentangled Representation Learning for Multimodal Emotion
Recognition
论文: Disentangled Representation Learning for Multimodal Emotion Recognition
博主关键词:分散表示学习, 多模态融合, 情绪识别,对抗训练
推荐相关论文:
论文:MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis
地址: https://dl.acm.org/doi/abs/10.1145/3394171.3413678
关联创新点:相似的模型结构,相似的设计思想,相同的benchmark
摘要
多模态情绪识别旨在从文本、音频和视觉信息中识别人类情绪。以往的方法致力于探索不同模态之间的相关性,或者设计复杂的多模态信息融合策略。然而,有个严重的问题是,不同的模态之间存在着分布差距(distribution gap)和信息冗余 (information redundancy),以至于学习到的多模态表征可能是不完善的。对此,作者提出了一种特征分解的多模态情感识别(FDMER)方法,该方法学习了每种模态的共同和私有特征。具体来说,通过一个共同编码器和每个模态的私有编码器,作者将每种模态投射到模态不变子空间和模态特定子空间。模态不变的子空间旨在探索不同模态之间的共性,并充分减少分布差距。模态特定子空间试图增强多样性,捕捉每种模态信息的独特特征。之后,引入模态判别器,以对抗训练的方式来指导共同和私有编码器的参数学习。通过为子空间设计多个专门的损失,FDMER实现了对模态信息的一致性和差异性的约束。此外,作者们还提出了一个跨模态注意力融合模块,以便学习自适应权重以获得有效的多模态表示。实验结果表明,FDMER在在两个多模态情绪识别的benchmark上表现优于SOTA方法。此外,通过多模态幽默检测任务的实验,进一步验证了模型的有效性。
简介
情感在人类交流中发挥着作用。多模态情绪识别(MER)已成为一个活跃的研究领域,在各个领域都有重要的应用,如人机交互、智能医疗和机器人学。人类的情绪表达通常是自然语言、面部手势和声音行为的混合。不同的模式可以提供丰富的信息,来帮助AI理解人类的情绪和意图。人们开发了各种深度学习模型来从多模态序列中提取情感相关的信息,如卷积神经网络、递归神经网络、Transformer以及它们的变体。主流的研究内容可被分为两类 :
- 学习来自不同模态的元素之间的关联,以获得精炼的模态语义
- 设计复杂的融合策略,以产生有效的表示。
然而,不同模态之间固有的异质性往往会引入信息冗余和分布差距,增加了多模态表征学习和特征融合的难度。以往的方法以整体学习的方式来处理每个模态的表征,导致学到的多模态表征可能是不完善的和冗余的。
本文中,作者提出了一种特征分解的多模态情绪识别(FDMER)方法来处理模态的异质性。如上图所示。FDMER为每种模态学习两种不同的表征,第一个是共同表征,其目的是将所有模态投射到一个模态不变的,具有统一分布的共享子空间。FDMER可以捕获关于潜在情绪的模态之间的共同性,并减少这个子空间中的模态差距。第二种是私有表征,其目的是为每个模态提供一个特定的模态子空间。在这些子空间中,我们的FDMER可以学习不同模态的独特特征并消除冗余信息。我们设计了公共和私有编码器来实现上述的特征分离。此外,我们利用所提出的一致性和差异性约束来保证共同表征的一致性和私有表示的多样性。为了进一步保证不同的表征被完美地投射到相应的子空间中,我们引入了一个模态判别器来指导共同和私有编码的参数学习。为了缓解模态异质性的问题,我们在为隐藏表征和模态判别器的参数采用超球体上的球形模态判别损失来提高类内紧凑性和类间差异性。随后,我们提出了一个基于自适应注意力权重的个跨模态注意力融合模块,以有效地融合不同的表征。完善的多模态表征最终服务于下游的任务。
上图展示了在CMU-MOSI上的一个可视化结果(另外两个数据集上有类似的结果)。左边的图是在损失函数中去掉一致性和差异性约束后学到的表示,右边的是加上那几个损失后的表示。左边的图中可以看出,大概分成三簇,每簇中有两个颜色,表示每个模态的共有表征和独特表征没有区分开。右边的图分成了四簇,中间那簇是三个模态提取出来的共有表征,重叠在了一块,外面三个是每个模态的独特表征,分散的比较开,较好的解决了作者提出来的,模态信息冗余性和分布差异的问题。
总的来说,本文的主要贡献如下:
- 本文提出了FDMER,一种基于特征分解的新型多模态情绪识别方法。FDMER通过学习多模态的共同和私有表征来解决模态异质性的问题。
- 本文提出了一个跨模态注意力融合(CMAF)模块来有效地融合多模态表征。该模块自适应地给不同的表征分配权重,基于它们的重要性突出较强的表征并抑制较弱的表征。
- 本文的FDMER在三个标准的多模态基准上优于以前的最先进的方法。综合实验证明,FDMER可以清楚地捕捉到不同的多模态表征,并描绘出多种模态之间的共性和多样性。