TEMPORAL MODELING MATTERS: A NOVEL TEMPORAL EMOTIONAL MODELING APPROACH FOR SPEECH EMOTION RECOGNITION

paper：2211.08233v1.pdf (arxiv.org)

code：Jiaxin-Ye/TIM-Net_SER: These are the supplementary material and Tensorflow 2.7 implementation of our paper, which under review in ICASSP 2023. (github.com)（里面好像没有代码，大家可以催一下作者开源）

期刊/会议：ICASSP

摘要

语音情感识别（SER）通过从语音信号中推断人的情绪和情感状态，在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息，但我们探索如何从动态时间尺度中建模语音情绪的时间模式。为了实现这一目标，我们为SER引入了一种新的时间情感建模方法，称为时间感知双向多尺度网络（TIM-Net），它从不同的时间尺度学习多尺度上下文情感表示。具体而言，TIM-Net首先使用时间感知块来学习时间情感表征，然后整合来自过去和未来的补充信息来丰富上下文表征，最后融合多个时间尺度特征以更好地适应情感变化。在六个基准SER数据集上的大量实验结果表明，TIM-Net的性能优越，在每个语料库上，平均UAR和WAR比第二好的提高了2.34%和2.61%。值得注意的是，TIM-Net在跨语料库SER任务上优于最新的领域自适应方法，显示出强大的通用性。

检索关键词：语音情感识别，双向，多尺度，动态融合

1、简介

语音情感识别（SER）是从语音信号中自动识别人类情绪和情感状态，使机器能够与人类进行情感交流。随着人机交互技术的发展，它变得越来越重要。

SER的关键挑战是如何从语音信号中建模情感表征。传统方法专注于手工特征的有效提取，这些特征被输入到传统的机器学习方法中，例如支持向量机（SVM）。基于深度学习技术的最新方法旨在以端到端的方式学习语音的类别区分表示，其采用各种深度学习架构，例如卷积神经网络（CNN）、循环神经网络（RNN）或CNN和RNN的组合。

SER中广泛采用了多种时间情感建模方法，如长短期记忆（LSTM）、门递归单元（GRU）和时间卷积网络（TCN），旨在捕获语音信号的动态时间变化。例如，Wang等人提出了一种dual-level LSTM，以利用来自不同时频分辨率的时间信息。Zhong等人使用具有bi-GRU和CNN来学习综合时空表示。Rajamani等人在GRU中提出了一种基于注意力的ReLU，以捕捉特征之间的远程交互。Zhao等人充分利用CNN和双向LSTM来学习时空表示。然而，所有这些方法都存在以下缺点：1）它们仍然缺乏足够的能力来捕获远程上下文建模的远程依赖性；和2）他们受到不同说话者的发音速度和暂停时间的严重影响，因为他们只能从低级特征中感知固定的时间尺度或感受野。

为了克服SER中的这些限制，我们提出了一种时间感知双向多尺度网络，称为TIM-Net，这是一种新的时间情感建模方法，用于从不同时间尺度学习多尺度上下文情感表示。贡献有三个：首先，我们提出了一种基于空洞因果卷积（Dilated Causal Convolution，DC conv）的时间感知块，作为TIM网络的核心单元。空洞卷积可以扩大和细化时间模式的感受野。与RNNs相比，因果卷积结合扩张卷积可以帮助我们放松一阶马尔可夫性质的假设。通过这种方式，我们可以将N-order(N表示所有先前帧的数目）连接到网络以聚合来自不同时间位置的信息。第二，我们设计了一种新的双向架构，该架构集成了来自过去和未来的补充信息，用于建模长期时间依赖性，灵感来自于上下文信息极大地影响人类的情感感知能力这一事实。第三，我们设计了一个基于多尺度特征的动态融合模块，以动态处理不同尺度的语音信号，因为发音习惯（如速度或暂停时间）因说话者而异，使得语音呈现出时间尺度变化的特征。

2、方法

2.1 Input Pipeline

为了说明TIM-Net的时间建模能力，我们使用最常用的Mel-Frequency Cepstral Co-efficients (MFCCs)特征作为TIM-Net输入。我们首先将采样率设置为每个语料库的原始采样率，并将成framing operation和Hamming window应用于具有50ms帧长和12.5ms移位的每个语音信号。然后，在对每个帧执行2048点快速傅里叶变换(Fourier transformer)之后，语音信号经历 mel-scale trian-gular filter bank analysis。最后，通过离散余弦变换处理MFCC的每一帧。

2.2 Temporal-aware Bi-direction Multi-scale Network

我们提出了一种新的时间情感建模方法，称为TIM-Net，它从向前和向后方向学习长期情感依赖性，并在帧级别捕获多尺度特征。图1显示了TIM Net的详细网络架构。为了学习具有长程相关性的多尺度表示，TIMNet由以下组成n nn具有不同时间感受野的正向和反向的时间感知块（TAB）。接下来，我们详细介绍每个组件。

Temporal-aware block。我们设计TAB来捕获时间感知表示，将其作为TIM-Net的核心单元。如图1所示，T 表示一个TAB，每个TAB由两个子块和一个Sigmoid σ ( ⋅ ) 组成学习时间注意图A ，以产生时间感知特征F通过按元素生成输入和A 。对于两个子块中第j 个TAB T_j ，每个子块开始时添加一个扩张率为2^{j − 1} 的DC Conv和因果约束。扩张的卷积放大和细化了感受野，因果约束确保了未来的信息不会泄露给过去。DC Conv之后是批量归一化、ReLU激活函数和空间丢弃。

Bi-direction temporal modeling。为了整合来自过去和未来的互补信息，以判断情绪极性和建模长期时间依赖性，我们设计了一种基于多尺度特征的双向架构，如图1所示。形式上，对于在输入的正向上TAB从上一个选项卡，输出由等式（1）给出：

来自第一个1x1卷积层的输出，并且反向可以类似地在方程2中进行定义。

然后，我们将双向语义依赖性和话语级别的紧凑全局上下文表示相结合，以如下方式感知上下文：

多尺度动态融合。此外，由于发音习惯（例如速度或停顿时间）因说话者而异，因此发音具有时间尺度变化的特征。SER受益于考虑动态时间感受野。我们设计了动态融合模块，以自适应地处理不同尺度的语音输入，旨在为训练阶段的当前输入确定合适的时间尺度。我们采用加权求和运算将特征与动态接收场（DRF）融合权重融合w _{d r f} 来自不同TAB的。DRF融合定义如下：

其中w_{d r f} = [ w 1 , w 2 , . . . , w n ] ^T 是可训练参数。一旦情感表达w _{d r f} 的生成具有很强的可分辨性，我们可以简单地使用一个具有softmax函数的完全连接层来进行情感分类。

3、实验

3.1 实验设置

数据集：CASIA、EMODB、EMOVO、IEMOCAP。

实验细节：在实验中，从Librosa工具箱中提取了39维MFCC。交叉熵损失函数被用作目标函数。采用Adam算法以初始学习率优化模型α = 0.001 ，批量大小为64。为了避免在训练阶段过度拟合，我们使用因子0.1实现标签平滑，作为正则化和droupt。为了与SOTA方法进行公平比较，我们在实验中进行了10倍交叉验证（CV）以及之前的工作。

评估指标：Weighted Average Recall (WAR)( accuracy) and Unweighted Average Recall (UAR)。

3.2 结果和分析

对比之前的SOAT方法，具体如下表1所示：

学习情感表征的可视化。为了研究TIM-Net对表示学习的影响，我们通过图3中的t-SNE技术[28]可视化了TIM Net和GMTCN学习的表示。为了公平比较，我们首先使用相同的8:2在CASIA语料库上对两种方法进行验证，并在相同的训练阶段后可视化相同测试数据的表示。尽管GM-TCN也关注多尺度和时间建模，但图3（a）显示了恐惧与悲伤或愤怒与惊讶之间的严重重叠。相比之下，图3（b）显示，不同的表示都具有清晰的分类边界。结果证实，TIM-Net提供了更多的类区分表示，以支持优异的性能。

领域泛化分析。由于语言和说话者的不同，SER语料库虽然有着相同的情感，但有着显著的领域转移。将模型推广到未知领域对于SER来说至关重要。受CAAM中的领域适应性研究的启发，我们同样验证了TIM-Net在跨语料库SER任务上的可推广性，遵循与CAAM相同的实验设置，除了TIM-Net不能访问目标领域。具体来说，我们同样选择了5个类别进行公平的比较，即愤怒、恐惧、快乐、中立和悲伤，这5个语料库共享（IEMOCAP除外，IEMOCAP只有4种情绪）。这5个语料库构成了20个跨语料库组合。我们在表2中报告了每项任务的平均UAR和WAR及其与10次随机运行的标准偏差；详细结果见附录C。

3.3 消融实验

我们对所有语料库数据集进行了消融研究，包括TIM-Net的以下变体：TCN：用TCN替换TIM-Net；不带BD：删除后向TAB，同时保留前向TAB；w/o MS：去除多尺度融合품푛 用作품drf对应于最大尺度感受野；w/o DF：平均融合用于确认动态融合的优势。消融研究结果如表A3所示。我们有以下观察结果。

首先，所有组成部分对整体绩效都有积极贡献。第二，我们的方法在UAR和WAR中实现了8.31%和8.41%的性能增益，而TCN也利用了DC卷积。第三，当去除后向TAB或多尺度策略时，由于建模时间依赖性和感知不同尺度的情感特征的能力较弱，结果大幅下降。最后，没有动态融合的TIM-Net的性能比TIM-Net差，这验证了部署动态融合以自适应调整模型的好处。

4、总结

在本文中，我们提出了一种新的时间情感建模方法，称为TIM-Net，以从不同的时间尺度学习多尺度上下文情感表示。TIM-Net可以通过双向时间建模捕获长时间依赖性，并动态融合多尺度信息，以更好地适应时间尺度变化。我们的实验结果建议对SER问题进行时间建模，并验证了TIM-Net在很大程度上优于先前的最先进方法。消融研究、可视化和领域概括分析进一步证实了TIM-Net的优势。未来，我们将通过所提出的时间建模方法来研究情感和语音内容的分离，以便在跨语料库SER任务中更好地泛化。

Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读

TEMPORAL MODELING MATTERS: A NOVEL TEMPORAL EMOTIONAL MODELING APPROACH FOR SPEECH EMOTION RECOGNITION

摘要

1、简介