ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析

简介: ICASSP 2022 论文分享:基于 HRR 的非对齐序列多模态情感分析

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。

本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

文章介绍在非对齐序列的多模态情感分析场景中,一种基于 holographic reduced representation 的表征融合方法。

/ICASSP收录论文/

Mutimodal Sentiment Analysis On Unaligned Sequences Via Holographic Embedding

/作者/

马煜坤 马斌

|| 背景

多模态情感分析一直是语音理解任务中的一个重要的子任务。不同于传统的基于文本或者语音的单模态情感分析任务,多模态情感分析需要同时考虑多个模态(语音/文本/图像)的输入特征。

这个任务的核心是要把多个模态输入的特征进行有效的融合和利用。常见的多模态情感的分析场景中,输入是视频流,包含文本、图像和语音的三个特征序列。

根据多模态序列是否对齐,任务可以进一步细分为:1)对于对齐序列的多模态分析;2)对于非对齐序列的多模态分析。目前的研究针对对齐/非对齐序列的特征融合主要依靠使用多层网络结构(例如transformer layer)来完成。

|| 方法

我们针对非对齐序列的多模态表征融合提出一种基于 holographic reduced representation 的融合方法。这种融合方法可以用于表示任意两个模态的表征的高阶相关性(high-order correlation)。具体是通过 circular convolution layer来实现的。

如上图所示,circular convolution 可以被看做是一个压缩版本的向量外积,并可以通过 fast fourier transformation 来保证较高效率。下图展示我们提出的跨模态HRR的一个block:

第一层是 circular convolution 层用于表示两个模态序列 step-wise 的高阶相关性;

第二层 cross attention 层根据 X->Y 或者 Y->X 的方向对两个模态特征进行融合;

第三层 self-attention 层,根据融合过后的序列进行进一步的序列中的信息融合;

第四层 Linear 层对融合过后的表征进行进一步的变换。

考虑到效率,我们采取了将跨模态 HRR block 和 transformer block 混合的网络结构。只利用比较浅(1-3层)的 HRR 对多模态表征进行高阶融合,然后利用 transformer 层进行 task specific adaptation。我们试验了不同的混合策略(见下图,从左到右)分别对应 early fusion/intermediate fusion/late fusion.

|| 实验结果

我们在两个 CMU 的多模态情感分析数据集(下图左 CMU MOSI,下图右 MOSEI)上做了对比实验。对比了目前针对非对齐多模态序列的 SOTA 方法。结果显示在大多数评价指标上,我们的融合方法都实现了提升。

另一方面,我们比较了不同的与 transformer 层的混合方法的效率,我们发现在达到上面表格报告效果的前提下,使用 late fusion 和 early fusion 可以获得更好的 inference 效率。主要的原因是 late 和 early fusion 需要更少的 transformer 层。


|| Future Work在这个工作中,我们探索了利用HRR来进行跨模态的特征融合,并证明了在非对齐序列情感理解任务上的有效性。目前,我们利用HRR来对跨模态特征进行融合时,还是通过遍历所有的特征来实现的。针对下一步的探索方向,我们可以尝试将HRR和跨模态图模型进行结合,利用HRR来表示不同模态间存在联系的节点。

相关文章
|
网络协议
MossFormer2语音分离模型
MossFormer2语音分离模型
933 4
|
Java 数据库连接 程序员
从头到尾手把手教你搭建阅读Mybatis源码的环境(程序员必备技能)
从头到尾手把手教你搭建阅读Mybatis源码的环境(程序员必备技能)
353 0
|
3月前
|
传感器 边缘计算 人工智能
2025大模型应用平台选型指南:从个人助手到企业级智能体,5大平台场景化拆解
本文深度评测五大主流大模型平台,结合金融、医疗、制造实战案例,解析Open WebUI、Dify、Ragflow、FastGPT与n8n的定位与优势,提供选型决策树与混合架构实例,助你精准匹配业务需求,避开“全能平台”陷阱,实现高效智能化落地。
|
缓存 前端开发 Java
在Java项目中实现跨域资源共享(CORS)
在Java项目中实现跨域资源共享(CORS)
|
机器学习/深度学习 语音技术
语音情感基座模型emotion2vec 问题之emotion2vec模型进行预训练,如何操作
语音情感基座模型emotion2vec 问题之emotion2vec模型进行预训练,如何操作
538 1
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘深度学习中的自注意力机制及其在Transformer模型中的应用
揭秘深度学习中的自注意力机制及其在Transformer模型中的应用
|
消息中间件 传感器 数据处理
"揭秘实时流式计算:低延迟、高吞吐量的数据处理新纪元,Apache Flink示例带你领略实时数据处理的魅力"
【8月更文挑战第10天】实时流式计算即时处理数据流,低延迟捕获、处理并输出数据,适用于金融分析等需即时响应场景。其框架(如Apache Flink)含数据源、处理逻辑及输出目标三部分。例如,Flink可从数据流读取信息,转换后输出。此技术优势包括低延迟、高吞吐量、强容错性及处理逻辑的灵活性。
408 4
|
小程序
【边做边学】uniapp里面的生命周期钩子函数
【边做边学】uniapp里面的生命周期钩子函数
502 0
|
运维
ICLR 2024:跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIP
【5月更文挑战第12天】 浙大、新大和哈佛研究人员合作提出AnomalyCLIP,利用预训练的视觉-语言模型CLIP,学习对象无关文本提示,实现准确的跨领域异常检测。在17个数据集上表现出色,但存在特定领域适应性和计算复杂度问题。研究表明潜力,尤其对工业和医学图像分析。[论文链接](https://arxiv.org/pdf/2310.18961.pdf)
554 1
|
Web App开发 API
如何使用Postman 录制请求?
如何使用Postman 录制请求?
338 0