ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析

简介: ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。

本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

文章介绍在非对齐序列的多模态情感分析场景中,一种基于 holographic reduced representation 的表征融合方法。

/ICASSP收录论文/

Mutimodal Sentiment Analysis On Unaligned Sequences Via Holographic Embedding

/作者/

马煜坤 马斌

|| 背景

多模态情感分析一直是语音理解任务中的一个重要的子任务。不同于传统的基于文本或者语音的单模态情感分析任务,多模态情感分析需要同时考虑多个模态(语音/文本/图像)的输入特征。

这个任务的核心是要把多个模态输入的特征进行有效的融合和利用。常见的多模态情感的分析场景中,输入是视频流,包含文本、图像和语音的三个特征序列。

根据多模态序列是否对齐,任务可以进一步细分为:1)对于对齐序列的多模态分析;2)对于非对齐序列的多模态分析。目前的研究针对对齐/非对齐序列的特征融合主要依靠使用多层网络结构(例如transformer layer)来完成。

|| 方法

我们针对非对齐序列的多模态表征融合提出一种基于 holographic reduced representation 的融合方法。这种融合方法可以用于表示任意两个模态的表征的高阶相关性(high-order correlation)。具体是通过 circular convolution layer来实现的。

如上图所示,circular convolution 可以被看做是一个压缩版本的向量外积,并可以通过 fast fourier transformation 来保证较高效率。下图展示我们提出的跨模态HRR的一个block:

第一层是 circular convolution 层用于表示两个模态序列 step-wise 的高阶相关性;

第二层 cross attention 层根据 X->Y 或者 Y->X 的方向对两个模态特征进行融合;

第三层 self-attention 层,根据融合过后的序列进行进一步的序列中的信息融合;

第四层 Linear 层对融合过后的表征进行进一步的变换。

考虑到效率,我们采取了将跨模态 HRR block 和 transformer block 混合的网络结构。只利用比较浅(1-3层)的 HRR 对多模态表征进行高阶融合,然后利用 transformer 层进行 task specific adaptation。我们试验了不同的混合策略(见下图,从左到右)分别对应 early fusion/intermediate fusion/late fusion.

|| 实验结果

我们在两个 CMU 的多模态情感分析数据集(下图左 CMU MOSI,下图右 MOSEI)上做了对比实验。对比了目前针对非对齐多模态序列的 SOTA 方法。结果显示在大多数评价指标上,我们的融合方法都实现了提升。

另一方面,我们比较了不同的与 transformer 层的混合方法的效率,我们发现在达到上面表格报告效果的前提下,使用 late fusion 和 early fusion 可以获得更好的 inference 效率。主要的原因是 late 和 early fusion 需要更少的 transformer 层。


|| Future Work在这个工作中,我们探索了利用HRR来进行跨模态的特征融合,并证明了在非对齐序列情感理解任务上的有效性。目前,我们利用HRR来对跨模态特征进行融合时,还是通过遍历所有的特征来实现的。针对下一步的探索方向,我们可以尝试将HRR和跨模态图模型进行结合,利用HRR来表示不同模态间存在联系的节点。

相关文章
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与文本生成:基于Transformer的文本生成模型
人工智能与文本生成:基于Transformer的文本生成模型
562 0
|
4月前
|
机器学习/深度学习 人工智能 编解码
[大语言模型-论文精读] 词性对抗性攻击:文本到图像生成的实证研究
[大语言模型-论文精读] 词性对抗性攻击:文本到图像生成的实证研究
84 0
【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析
【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析
|
机器学习/深度学习 算法 数据挖掘
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
|
自然语言处理 数据挖掘 语音技术
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
191 0
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
|
机器学习/深度学习 传感器 人工智能
英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!
英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!
225 0
英伟达 CVPR 2023 新作 I VoxFromer: 单目3D语义场景补全新SOTA!
|
机器学习/深度学习 达摩院 监控
达摩院OpenVI-视频目标跟踪ICASSP 2023 Oral 渐进式上下文Transformer跟踪器 ProContEXT
视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。本文将做较为详细的介绍说明。
778 1
|
机器学习/深度学习 自然语言处理 算法
CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型(二)
CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型
328 0
|
机器学习/深度学习 自然语言处理 PyTorch
CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型(一)
CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型(一)
209 0
|
机器学习/深度学习 人工智能 自然语言处理
CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型(三)
CopyNet、SeqGAN、BERTSUM…你都掌握了吗?一文总结文本摘要必备经典模型
281 0