【论文速递】 MM2022 - : 基于特征分解的多模态情绪识别方法

简介: 【论文速递】 MM2022 - : 多模态情绪识别中的解构表示学习

【论文速递】 MM2022 - : 多模态情绪识别中的解构表示学习

#
【论文原文】:MM2022 - Disentangled Representation Learning for Multimodal Emotion
Recognition

论文: Disentangled Representation Learning for Multimodal Emotion Recognition

博主关键词:分散表示学习, 多模态融合, 情绪识别,对抗训练

推荐相关论文

论文:MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis
地址: https://dl.acm.org/doi/abs/10.1145/3394171.3413678
关联创新点:相似的模型结构,相似的设计思想,相同的benchmark

摘要

多模态情绪识别旨在从文本、音频和视觉信息中识别人类情绪。以往的方法致力于探索不同模态之间的相关性,或者设计复杂的多模态信息融合策略。然而,有个严重的问题是,不同的模态之间存在着分布差距(distribution gap)和信息冗余 (information redundancy),以至于学习到的多模态表征可能是不完善的。对此,作者提出了一种特征分解的多模态情感识别(FDMER)方法,该方法学习了每种模态的共同和私有特征。具体来说,通过一个共同编码器和每个模态的私有编码器,作者将每种模态投射到模态不变子空间模态特定子空间模态不变的子空间旨在探索不同模态之间的共性,并充分减少分布差距。模态特定子空间试图增强多样性,捕捉每种模态信息的独特特征。之后,引入模态判别器,以对抗训练的方式来指导共同和私有编码器的参数学习。通过为子空间设计多个专门的损失,FDMER实现了对模态信息的一致性和差异性的约束。此外,作者们还提出了一个跨模态注意力融合模块,以便学习自适应权重以获得有效的多模态表示。实验结果表明,FDMER在在两个多模态情绪识别的benchmark上表现优于SOTA方法。此外,通过多模态幽默检测任务的实验,进一步验证了模型的有效性。

简介

情感在人类交流中发挥着作用。多模态情绪识别(MER)已成为一个活跃的研究领域,在各个领域都有重要的应用,如人机交互、智能医疗和机器人学。人类的情绪表达通常是自然语言、面部手势和声音行为的混合。不同的模式可以提供丰富的信息,来帮助AI理解人类的情绪和意图。人们开发了各种深度学习模型来从多模态序列中提取情感相关的信息,如卷积神经网络、递归神经网络、Transformer以及它们的变体。主流的研究内容可被分为两类 :

  1. 学习来自不同模态的元素之间的关联,以获得精炼的模态语义
  2. 设计复杂的融合策略,以产生有效的表示。

然而,不同模态之间固有的异质性往往会引入信息冗余和分布差距,增加了多模态表征学习和特征融合的难度。以往的方法以整体学习的方式来处理每个模态的表征,导致学到的多模态表征可能是不完善的和冗余的。

在这里插入图片描述
本文中,作者提出了一种特征分解的多模态情绪识别(FDMER)方法来处理模态的异质性。如上图所示。FDMER为每种模态学习两种不同的表征,第一个是共同表征,其目的是将所有模态投射到一个模态不变的,具有统一分布的共享子空间。FDMER可以捕获关于潜在情绪的模态之间的共同性,并减少这个子空间中的模态差距。第二种是私有表征,其目的是为每个模态提供一个特定的模态子空间。在这些子空间中,我们的FDMER可以学习不同模态的独特特征并消除冗余信息。我们设计了公共和私有编码器来实现上述的特征分离。此外,我们利用所提出的一致性和差异性约束来保证共同表征的一致性和私有表示的多样性。为了进一步保证不同的表征被完美地投射到相应的子空间中,我们引入了一个模态判别器来指导共同和私有编码的参数学习。为了缓解模态异质性的问题,我们在为隐藏表征和模态判别器的参数采用超球体上的球形模态判别损失来提高类内紧凑性和类间差异性。随后,我们提出了一个基于自适应注意力权重的个跨模态注意力融合模块,以有效地融合不同的表征。完善的多模态表征最终服务于下游的任务。

在这里插入图片描述在这里插入图片描述
上图展示了在CMU-MOSI上的一个可视化结果(另外两个数据集上有类似的结果)。左边的图是在损失函数中去掉一致性和差异性约束后学到的表示,右边的是加上那几个损失后的表示。左边的图中可以看出,大概分成三簇,每簇中有两个颜色,表示每个模态的共有表征和独特表征没有区分开。右边的图分成了四簇,中间那簇是三个模态提取出来的共有表征,重叠在了一块,外面三个是每个模态的独特表征,分散的比较开,较好的解决了作者提出来的,模态信息冗余性和分布差异的问题。

总的来说,本文的主要贡献如下:

  • 本文提出了FDMER,一种基于特征分解的新型多模态情绪识别方法。FDMER通过学习多模态的共同和私有表征来解决模态异质性的问题。
  • 本文提出了一个跨模态注意力融合(CMAF)模块来有效地融合多模态表征。该模块自适应地给不同的表征分配权重,基于它们的重要性突出较强的表征并抑制较弱的表征。
  • 本文的FDMER在三个标准的多模态基准上优于以前的最先进的方法。综合实验证明,FDMER可以清楚地捕捉到不同的多模态表征,并描绘出多种模态之间的共性和多样性。
目录
相关文章
|
计算机视觉
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
270 0
|
4月前
|
机器学习/深度学习 自然语言处理
准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊
【8月更文挑战第29天】浙江大学团队在《Nature》子刊上发表的论文介绍了一款名为EditRetro的基于Transformer架构的化学逆合成预测模型,其准确率高达60.8%,为化学合成领域带来了革命性的变化。此模型无需依赖传统化学反应模板,具备更强的泛化能力和多样化合成路线生成能力,在药物研发和材料科学领域展现出巨大潜力,尽管仍存在一定的错误率和计算资源需求高等挑战。论文详情见:https://www.nature.com/articles/s41467-024-50617-1。
63 3
|
7月前
|
机器学习/深度学习 编解码 人工智能
论文介绍:HigherHRNet——用于自下而上人体姿态估计的尺度感知表示学习
【5月更文挑战第22天】HigherHRNet是针对自下而上人体姿态估计的尺度感知方法,通过构建高分辨率特征金字塔,改善多尺度人体姿态估计的准确性。该论文提出的新架构在COCO测试集上提高了2.5%的中号人物平均精度,达到70.5%的AP,且在CrowdPose上超越所有自上而下方法,实现67.6%的AP。作者通过消融实验验证了各个组件的重要性,并指出未来可优化模型以适应更复杂场景。论文链接:[https://arxiv.org/abs/1908.10357](https://arxiv.org/abs/1908.10357)
52 1
|
7月前
|
机器学习/深度学习 自然语言处理 语音技术
【论文速递】COLING2022 - 因果情绪关联的双流注意力模型
【论文速递】COLING2022 - 因果情绪关联的双流注意力模型
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
44 0
|
7月前
|
存储 计算机视觉
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割
|
机器学习/深度学习 编解码 自然语言处理
【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。
237 0
|
机器学习/深度学习 编解码 vr&ar
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
251 0
|
机器学习/深度学习 编解码
Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法
Nature子刊 | 谭济民、夏波等提出基因组构象预测模型及高通量计算遗传筛选方法
|
机器学习/深度学习 关系型数据库 MySQL
2023港科大新作 | 新颖注意力机制有效提升医学图像小样本语义分割精度!
2023港科大新作 | 新颖注意力机制有效提升医学图像小样本语义分割精度!
682 0