【论文速递】 MM2022 - : 基于特征分解的多模态情绪识别方法

简介: 【论文速递】 MM2022 - : 多模态情绪识别中的解构表示学习

【论文速递】 MM2022 - : 多模态情绪识别中的解构表示学习

#
【论文原文】:MM2022 - Disentangled Representation Learning for Multimodal Emotion
Recognition

论文: Disentangled Representation Learning for Multimodal Emotion Recognition

博主关键词:分散表示学习, 多模态融合, 情绪识别,对抗训练

推荐相关论文

论文:MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis
地址: https://dl.acm.org/doi/abs/10.1145/3394171.3413678
关联创新点:相似的模型结构,相似的设计思想,相同的benchmark

摘要

多模态情绪识别旨在从文本、音频和视觉信息中识别人类情绪。以往的方法致力于探索不同模态之间的相关性,或者设计复杂的多模态信息融合策略。然而,有个严重的问题是,不同的模态之间存在着分布差距(distribution gap)和信息冗余 (information redundancy),以至于学习到的多模态表征可能是不完善的。对此,作者提出了一种特征分解的多模态情感识别(FDMER)方法,该方法学习了每种模态的共同和私有特征。具体来说,通过一个共同编码器和每个模态的私有编码器,作者将每种模态投射到模态不变子空间模态特定子空间模态不变的子空间旨在探索不同模态之间的共性,并充分减少分布差距。模态特定子空间试图增强多样性,捕捉每种模态信息的独特特征。之后,引入模态判别器,以对抗训练的方式来指导共同和私有编码器的参数学习。通过为子空间设计多个专门的损失,FDMER实现了对模态信息的一致性和差异性的约束。此外,作者们还提出了一个跨模态注意力融合模块,以便学习自适应权重以获得有效的多模态表示。实验结果表明,FDMER在在两个多模态情绪识别的benchmark上表现优于SOTA方法。此外,通过多模态幽默检测任务的实验,进一步验证了模型的有效性。

简介

情感在人类交流中发挥着作用。多模态情绪识别(MER)已成为一个活跃的研究领域,在各个领域都有重要的应用,如人机交互、智能医疗和机器人学。人类的情绪表达通常是自然语言、面部手势和声音行为的混合。不同的模式可以提供丰富的信息,来帮助AI理解人类的情绪和意图。人们开发了各种深度学习模型来从多模态序列中提取情感相关的信息,如卷积神经网络、递归神经网络、Transformer以及它们的变体。主流的研究内容可被分为两类 :

  1. 学习来自不同模态的元素之间的关联,以获得精炼的模态语义
  2. 设计复杂的融合策略,以产生有效的表示。

然而,不同模态之间固有的异质性往往会引入信息冗余和分布差距,增加了多模态表征学习和特征融合的难度。以往的方法以整体学习的方式来处理每个模态的表征,导致学到的多模态表征可能是不完善的和冗余的。

在这里插入图片描述
本文中,作者提出了一种特征分解的多模态情绪识别(FDMER)方法来处理模态的异质性。如上图所示。FDMER为每种模态学习两种不同的表征,第一个是共同表征,其目的是将所有模态投射到一个模态不变的,具有统一分布的共享子空间。FDMER可以捕获关于潜在情绪的模态之间的共同性,并减少这个子空间中的模态差距。第二种是私有表征,其目的是为每个模态提供一个特定的模态子空间。在这些子空间中,我们的FDMER可以学习不同模态的独特特征并消除冗余信息。我们设计了公共和私有编码器来实现上述的特征分离。此外,我们利用所提出的一致性和差异性约束来保证共同表征的一致性和私有表示的多样性。为了进一步保证不同的表征被完美地投射到相应的子空间中,我们引入了一个模态判别器来指导共同和私有编码的参数学习。为了缓解模态异质性的问题,我们在为隐藏表征和模态判别器的参数采用超球体上的球形模态判别损失来提高类内紧凑性和类间差异性。随后,我们提出了一个基于自适应注意力权重的个跨模态注意力融合模块,以有效地融合不同的表征。完善的多模态表征最终服务于下游的任务。

在这里插入图片描述在这里插入图片描述
上图展示了在CMU-MOSI上的一个可视化结果(另外两个数据集上有类似的结果)。左边的图是在损失函数中去掉一致性和差异性约束后学到的表示,右边的是加上那几个损失后的表示。左边的图中可以看出,大概分成三簇,每簇中有两个颜色,表示每个模态的共有表征和独特表征没有区分开。右边的图分成了四簇,中间那簇是三个模态提取出来的共有表征,重叠在了一块,外面三个是每个模态的独特表征,分散的比较开,较好的解决了作者提出来的,模态信息冗余性和分布差异的问题。

总的来说,本文的主要贡献如下:

  • 本文提出了FDMER,一种基于特征分解的新型多模态情绪识别方法。FDMER通过学习多模态的共同和私有表征来解决模态异质性的问题。
  • 本文提出了一个跨模态注意力融合(CMAF)模块来有效地融合多模态表征。该模块自适应地给不同的表征分配权重,基于它们的重要性突出较强的表征并抑制较弱的表征。
  • 本文的FDMER在三个标准的多模态基准上优于以前的最先进的方法。综合实验证明,FDMER可以清楚地捕捉到不同的多模态表征,并描绘出多种模态之间的共性和多样性。
目录
相关文章
|
机器学习/深度学习 Serverless 计算机视觉
【YOLOv8改进 - 注意力机制】Sea_Attention: Squeeze-enhanced Axial Attention,结合全局语义提取和局部细节增强
【YOLOv8改进 - 注意力机制】Sea_Attention: Squeeze-enhanced Axial Attention,结合全局语义提取和局部细节增强
|
4月前
|
JSON 算法 API
拼多多API跨店比价功能,选品效率提升60%!
拼多多推出API跨店比价功能,助力商家与消费者高效选品。通过自动化比价与智能算法,实现选品效率提升60%。开发者可快速集成,优化采购与购物体验。智能高效,抢占市场先机。了解详情:https://o0b.cn/evan
447 0
|
应用服务中间件 uml
【UML】软件工程中常用图:类图、部署图、时序图、状态图
【UML】软件工程中常用图:类图、部署图、时序图、状态图
3211 1
|
机器学习/深度学习 人工智能 自然语言处理
开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开
【10月更文挑战第20天】近日,开源版GPT-4o的发布成为AI领域的焦点。作为GPT系列的最新成员,GPT-4o在性能和多模态数据处理方面实现了显著提升,得到了知名AI专家Andrej Karpathy的高度评价。该模型的开源特性将进一步促进AI研究的进展。
1061 3
|
算法 决策智能
基于GA-PSO遗传粒子群混合优化算法的TSP问题求解matlab仿真
本文介绍了基于GA-PSO遗传粒子群混合优化算法解决旅行商问题(TSP)的方法。TSP旨在寻找访问一系列城市并返回起点的最短路径,属于NP难问题。文中详细阐述了遗传算法(GA)和粒子群优化算法(PSO)的基本原理及其在TSP中的应用,展示了如何通过编码、选择、交叉、变异及速度和位置更新等操作优化路径。算法在MATLAB2022a上实现,实验结果表明该方法能有效提高求解效率和解的质量。
|
Web App开发 缓存 安全
解决Edge浏览器提示“此网站已被人举报不安全”
【9月更文挑战第1天】当 Edge 浏览器提示“此网站被举报为不安全”时,可尝试:关闭 Microsoft Defender SmartScreen;检查网站安全性;清除缓存和 Cookie;更新 Edge 至最新版;或使用其他浏览器。若问题依旧,联系网站管理员和技术支持。同时,避免在不可信网站输入敏感信息,保护网络安全与隐私。
3269 7
|
存储 运维 资源调度
云资源的使用规范是什么?
【5月更文挑战第9天】云资源的使用规范是什么?
488 1
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
398 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
消息中间件 存储 网络协议
即时通讯需要用到哪些技术手段?
该文探讨了即时通讯技术,涉及网络协议(TCP/IP、UDP、HTTP/HTTPS)在IM中的应用,数据传输与同步(消息队列、长轮询、WebSocket、数据同步)技术,安全性保障(加密、认证授权、防止攻击)措施,以及多媒体处理(音频、视频处理和实时传输)和用户界面交互设计的重要性。文章旨在帮助读者理解并应用相关技术。
1208 1

热门文章

最新文章