ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析

简介: ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。

本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

文章介绍在非对齐序列的多模态情感分析场景中,一种基于 holographic reduced representation 的表征融合方法。

/ICASSP收录论文/

Mutimodal Sentiment Analysis On Unaligned Sequences Via Holographic Embedding

/作者/

马煜坤 马斌

|| 背景

多模态情感分析一直是语音理解任务中的一个重要的子任务。不同于传统的基于文本或者语音的单模态情感分析任务,多模态情感分析需要同时考虑多个模态(语音/文本/图像)的输入特征。

这个任务的核心是要把多个模态输入的特征进行有效的融合和利用。常见的多模态情感的分析场景中,输入是视频流,包含文本、图像和语音的三个特征序列。

根据多模态序列是否对齐,任务可以进一步细分为:1)对于对齐序列的多模态分析;2)对于非对齐序列的多模态分析。目前的研究针对对齐/非对齐序列的特征融合主要依靠使用多层网络结构(例如transformer layer)来完成。

|| 方法

我们针对非对齐序列的多模态表征融合提出一种基于 holographic reduced representation 的融合方法。这种融合方法可以用于表示任意两个模态的表征的高阶相关性(high-order correlation)。具体是通过 circular convolution layer来实现的。

如上图所示,circular convolution 可以被看做是一个压缩版本的向量外积,并可以通过 fast fourier transformation 来保证较高效率。下图展示我们提出的跨模态HRR的一个block:

第一层是 circular convolution 层用于表示两个模态序列 step-wise 的高阶相关性;

第二层 cross attention 层根据 X->Y 或者 Y->X 的方向对两个模态特征进行融合;

第三层 self-attention 层,根据融合过后的序列进行进一步的序列中的信息融合;

第四层 Linear 层对融合过后的表征进行进一步的变换。

考虑到效率,我们采取了将跨模态 HRR block 和 transformer block 混合的网络结构。只利用比较浅(1-3层)的 HRR 对多模态表征进行高阶融合,然后利用 transformer 层进行 task specific adaptation。我们试验了不同的混合策略(见下图,从左到右)分别对应 early fusion/intermediate fusion/late fusion.

|| 实验结果

我们在两个 CMU 的多模态情感分析数据集(下图左 CMU MOSI,下图右 MOSEI)上做了对比实验。对比了目前针对非对齐多模态序列的 SOTA 方法。结果显示在大多数评价指标上,我们的融合方法都实现了提升。

另一方面,我们比较了不同的与 transformer 层的混合方法的效率,我们发现在达到上面表格报告效果的前提下,使用 late fusion 和 early fusion 可以获得更好的 inference 效率。主要的原因是 late 和 early fusion 需要更少的 transformer 层。


|| Future Work在这个工作中,我们探索了利用HRR来进行跨模态的特征融合,并证明了在非对齐序列情感理解任务上的有效性。目前,我们利用HRR来对跨模态特征进行融合时,还是通过遍历所有的特征来实现的。针对下一步的探索方向,我们可以尝试将HRR和跨模态图模型进行结合,利用HRR来表示不同模态间存在联系的节点。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与文本生成:基于Transformer的文本生成模型
人工智能与文本生成:基于Transformer的文本生成模型
371 0
|
2月前
|
机器学习/深度学习 自然语言处理 API
自然语言处理 Paddle NLP - 文本语义相似度计算(ERNIE-Gram)
自然语言处理 Paddle NLP - 文本语义相似度计算(ERNIE-Gram)
105 0
|
5月前
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】CVPR2022 - 泛化的小样本语义分割
【论文速递】CVPR2022 - 泛化的小样本语义分割
【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析
【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析
|
机器学习/深度学习 算法 数据挖掘
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
|
自然语言处理 数据挖掘 语音技术
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
145 0
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
|
机器学习/深度学习 自然语言处理 索引
瞎聊机器学习——从词袋模型到word2vec
瞎聊机器学习——从词袋模型到word2vec
【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析
【论文速递】 EMNLP2022-EMMR:Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities
1062 0
【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析
|
机器学习/深度学习 编解码 数据可视化
AAAI2023 | DeMT: CNN+Transformer实现多任务学习(分割/深度等)
人类视觉可以从一个视觉场景执行不同的任务,如分类、分割、识别等。因此,多任务学习(MTL)研究是计算机视觉领域的热点。期望开发一个强大的视觉模型,以在不同的视觉场景中同时执行多个任务,有望高效工作。如图1所示,本文旨在开发一个强大的视觉模型同时学习多个任务,包括语义分割、人体部位分割、深度估计、边界检测、显著性估计和normal estimation。
AAAI2023 | DeMT: CNN+Transformer实现多任务学习(分割/深度等)
|
机器学习/深度学习 自然语言处理
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)
一般来说,自然语言是由词汇和句法组成的,但是标准的语言模型一般都只用RNN对词汇进行建模,句法信息都是隐式的学习到的,没有办法显式地拿出来使用。所以本文提出的语言模型的变体可以结合结构上的attention,在中间过程中学习到结构信息,然后这层结构信息可以拿来生成句法树,用来做无监督的句法分析。
182 0
论文赏析[ICLR18]联合句法和词汇学习的神经语言模型(一)