【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析

简介: 【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析

【论文原文】:EMNLP2022 - Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

论文:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.189.pdf

代码:https://github.com/JaydenZeng/EMMR

博主关键词:多模态情感分析,模态缺失重建, ensemble learning


摘要


模态缺失问题是多模态情感分析任务(MSA)的常见问题。整体的情感极性可能会因某一模态的缺失而发生变化,出现情感不一致的现象(inconsistency phenomenon)。缺少的,能够决定整体情感极性的模态,被称为关键缺失模态(key missing modality)。以往工作忽略了情感不一致现象(inconsistency phenomenon),简单地丢弃缺失模态,仅从现有的模态中生成相关特征。本文提出了一个ensemble-based 缺失模态重建网络(EMMR)来检测并恢复关键缺失模态(key missing modality)的语义特征。首先, EMMR通过骨干编码器-解码器网络来学习其余模态的联合表征。然后,基于重建的缺失模态特征,本文通过检查语义一致性以确定缺失模态是否对整体情感极性的判定起关键作用。在确定关键缺失模态后,本文引入 多个 encoder-decoder 模型,以late fusion的方式做出更好的决策

640.png

简介


经典的多模态情感分析方法根据所有模态的信息来做出判断,但很多场景中部分模态往往是缺失的。尽管有一些方法关注于缺失模态的重建,但是它们忽略了,模态缺失所带来的情感极性的反转现象。例如Figure 1 中,当声音,文本,图片三模态信息完整时,展现出中性的(Neutral)情感;当声音模态的信息缺失时,仅凭文本和图像,更倾向于展示出负面的(Negative)情感。这种情感极性不一致的现象(inconsistency phenomenon)表明在这个例子中,声音模态是关键缺失模态(key missing modality)。此外,当不同模态表现出略微不同的情感极性时,如何在多模态信息之间做好取舍,也是待解决的问题。

在本文中,作者提出了Ensemble-based Missing Modality Reconstruction (EMMR) 网络来解决情感极性不一致的现象。对于输入的一条多模态样本: S = [Xv, Xa, Xt] (vedio,acoustic,text),EMMR 通过基于transformer结构的encoder-decoder骨干网络来恢复缺失模态信息(图例中该样本缺失的模态信息是声音模态Xa),并在除分类损失外增加两个loss, L_{forward}和 L_{backword}辅助缺失模态信息的重建:

640.png

骨干网络中引入了已经预训练好的Pre-trained Network,该网络在预训练时利用所有模态的信息(不存在缺失模态),并在训练完成后冻结参数。引入它的目的是利用它的预训练知识指导骨干网络中的Encoder,通过将Pre-trained Network 的输出与骨干网络Encoder的输出计算KL散度损失作为 L_{forward},达到迁移预训练知识的目的。类似地,将处理后的多模态输入特征与骨干网络decoder的输出计算KL散度损失,作为 L_{backward}, 以更好地监督特征重建的过程。

在完成缺失模态特征的重建之后,EMMR重点关注情感极性是否发生反转,并据此确定缺失模态是否为关键模态,以采取不同的ensemble策略。用骨干网络decoder的输出代替缺失的模态信息后,将恢复后的完备模态信息通过多头注意力与全连接层进行标签预测,若预测的标签与基于除缺失模态外的剩余模态信息预测的标签不一致,则认定缺失模态为关键模态,并引入 多个模型,包括AutoEncoder (AE),Missing Modality Imagination Network (MMIN), Transformer-based encoder-decoder model (TF) 以late fusion的方式做出更好的决策,如下Figure 3所示:

640.png

由于ensemble learning结合了多个模型的信息知识,并以自适应的方式实现更好的预测性能,所以它可以基于恢复的特征有效地缓解情感极性不一致的现象。EMMR检查恢复的完整模态与原始可用模态之间的语义一致性(预测标签的差异)。一旦它们不一致,则对TF、AE和MMIN进行进一步的整合来决策。在ensemble learning中,多种方法的整体表现会比单一方法的表现要好,EMMR将三种提取的特征根据相应的注意力进行组合,以获取最后的预测结果。


文章的主要创新点如下:

  • 本文提出EMMR来解决模态信息丢失情况下的多模态情感分析任务。以往工作更多的关注于缺失模态信息的重建,而本文进一步考虑到缺失的模态可能引起情感极性的不一致,并对此情况分别讨论。
  • 在出现情感极性不一致的情况下,本文引入Auto Encoder-based model 和transformer-based model,并针对情感极性不一致的样本采用ensemble learning以改善分类性能。
  • 在多模态情感分析数据集 CMU-MOSI 和IEMOCAP,本文方法取得了新的SOTA效果,特别是在CMU-MOSI的M-F1指标上取得大幅提升(9%)
相关文章
|
5月前
|
机器学习/深度学习 人工智能 计算机视觉
让AI真正"看懂"世界:多模态表征空间构建秘籍
本文深入解析多模态学习的两大核心难题:多模态对齐与多模态融合,探讨如何让AI理解并关联图像、文字、声音等异构数据,实现类似人类的综合认知能力。
1917 6
|
12月前
|
编译器 Linux C++
本地LaTeX编写环境配置
LaTeX是一种高质量排版系统,适用于学术论文、书籍等文档。本地配置主要基于VS Code,通过安装LaTeX Workshop插件实现一键配置。还可通过Overleaf Workshop插件连接在线平台Overleaf,实现线上线下同步编辑与编译。
1534 1
本地LaTeX编写环境配置
|
Shell Linux Python
基于远程服务器安装配置Anaconda环境及创建python虚拟环境详细方案(一)
基于远程服务器安装配置Anaconda环境及创建python虚拟环境详细方案
8237 0
基于远程服务器安装配置Anaconda环境及创建python虚拟环境详细方案(一)
|
人工智能 资源调度 API
AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程
AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。
8230 76
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
358 3
|
机器学习/深度学习 并行计算 PyTorch
从零开始下载torch+cu(无痛版)
这篇文章提供了一个详细的无痛版教程,指导如何从零开始下载并配置支持CUDA的PyTorch GPU版本,包括查看Cuda版本、在官网检索下载包名、下载指定的torch、torchvision、torchaudio库,并在深度学习环境中安装和测试是否成功。
从零开始下载torch+cu(无痛版)
|
并行计算 异构计算
卸载原有的cuda,更新cuda
本文提供了一个更新CUDA版本的详细指南,包括如何查看当前CUDA版本、检查可安装的CUDA版本、卸载旧版本CUDA以及安装新版本的CUDA。
14369 3
卸载原有的cuda,更新cuda

热门文章

最新文章