ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。
本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。
文章介绍在非对齐序列的多模态情感分析场景中,一种基于 holographic reduced representation 的表征融合方法。
/ICASSP收录论文/
Mutimodal Sentiment Analysis On Unaligned Sequences Via Holographic Embedding
/作者/
马煜坤 马斌
|| 背景
多模态情感分析一直是语音理解任务中的一个重要的子任务。不同于传统的基于文本或者语音的单模态情感分析任务,多模态情感分析需要同时考虑多个模态(语音/文本/图像)的输入特征。
这个任务的核心是要把多个模态输入的特征进行有效的融合和利用。常见的多模态情感的分析场景中,输入是视频流,包含文本、图像和语音的三个特征序列。
根据多模态序列是否对齐,任务可以进一步细分为:1)对于对齐序列的多模态分析;2)对于非对齐序列的多模态分析。目前的研究针对对齐/非对齐序列的特征融合主要依靠使用多层网络结构(例如transformer layer)来完成。
|| 方法
我们针对非对齐序列的多模态表征融合提出一种基于 holographic reduced representation 的融合方法。这种融合方法可以用于表示任意两个模态的表征的高阶相关性(high-order correlation)。具体是通过 circular convolution layer来实现的。
如上图所示,circular convolution 可以被看做是一个压缩版本的向量外积,并可以通过 fast fourier transformation 来保证较高效率。下图展示我们提出的跨模态HRR的一个block:
第一层是 circular convolution 层用于表示两个模态序列 step-wise 的高阶相关性;
第二层 cross attention 层根据 X->Y 或者 Y->X 的方向对两个模态特征进行融合;
第三层 self-attention 层,根据融合过后的序列进行进一步的序列中的信息融合;
第四层 Linear 层对融合过后的表征进行进一步的变换。
考虑到效率,我们采取了将跨模态 HRR block 和 transformer block 混合的网络结构。只利用比较浅(1-3层)的 HRR 对多模态表征进行高阶融合,然后利用 transformer 层进行 task specific adaptation。我们试验了不同的混合策略(见下图,从左到右)分别对应 early fusion/intermediate fusion/late fusion.
|| 实验结果
我们在两个 CMU 的多模态情感分析数据集(下图左 CMU MOSI,下图右 MOSEI)上做了对比实验。对比了目前针对非对齐多模态序列的 SOTA 方法。结果显示在大多数评价指标上,我们的融合方法都实现了提升。
另一方面,我们比较了不同的与 transformer 层的混合方法的效率,我们发现在达到上面表格报告效果的前提下,使用 late fusion 和 early fusion 可以获得更好的 inference 效率。主要的原因是 late 和 early fusion 需要更少的 transformer 层。
|| Future Work在这个工作中,我们探索了利用HRR来进行跨模态的特征融合,并证明了在非对齐序列情感理解任务上的有效性。目前,我们利用HRR来对跨模态特征进行融合时,还是通过遍历所有的特征来实现的。针对下一步的探索方向,我们可以尝试将HRR和跨模态图模型进行结合,利用HRR来表示不同模态间存在联系的节点。