朋友，我能分享你的喜怒吗？阿里语音情感识别框架揭秘-阿里云开发者社区

朋友，我能分享你的喜怒吗？阿里语音情感识别框架揭秘

2019-02-20 1595

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 情感识别（即，识别开心，忧伤等）现在愈来愈受到人们的关注，因为它可以提升人机交互界面的用户体验，进而提升产品的用户粘性，并在心理医疗健康方面等具有独特价值。基于语音的情感识别尤其具有现实意义，因为基于语音的人机交互界面具有相对较低的硬件要求。

小叽导读：情感识别（即，识别开心，忧伤等）现在愈来愈受到人们的关注，因为它可以提升人机交互界面的用户体验，进而提升产品的用户粘性，并在心理医疗健康方面等具有独特价值。基于语音的情感识别尤其具有现实意义，因为基于语音的人机交互界面具有相对较低的硬件要求。但是，在现实中，周围环境中存在着许多噪声，这些噪声将会降低系统的识别性能。在本文中我们提出了一套包含多个子系统的复合情感识别框架。这一框架会深入挖掘输入语音中与情感相关的各个方面的信息，从而提高系统的顽健性。

作者：陶斐、刘刚、赵情恩

会议：ICASSP-2018

研究背景

在现实生活中，基于语音的人工智能系统处在复杂的场景当中，因而会面临各种各样的挑战。对于情感识别来说，主要的挑战来自于两个方面：

周围存在背景噪声，因而传统的特征提取，比如在整句话层面上提取统计参数的方法将受到严重干扰；

用户说话的方式比较随意，不能如实验室中那样很好地控制输入语音，有时候用户会有一些发出一些非语音的声音，比如哭声，笑声，咳嗽声等，这些声音有些与情感有关，有些则完全无关。

面对这两个挑战，我们提出了一套复合情感识别框架。这套框架会对底层和高层特征进行识别，因此可以对一些背景噪声有一定的顽健性；同时这套框架也会利用注意力模型（attention model）学习特征序列中重要时间点的特征，以及利用语音中的文本信息对情感信息进行分类——这些机制可以有效避免用户的非语音声音或者长静音对识别的干扰。

复合情感识别框架

在本文中，我们提出了一套复合的情感识别框架。这一框架由若干子系统组合而成，其中包括基于整句话（utterance level)底层特征(low level descriptor)的识别系统，基于整句话高层表述的识别系统，基于序列特征的识别系统，以及基于语义信息的识别系统（见Fig 1)。

Fig1 The proposed ensemble framework for emotion recognition

其中，基于整句话底层特征的识别系统为一个深度神经网络，采用多任务训练(multitasklearning)方式进行训练(见Fig 2)，采用的特征为从opensmile提取的Interspeech 2010 LLD特征集。在这个神经网络中，我们在trunk部分有两层隐层（hidden layer)(每层4096个神经元)，在branch部分，每个任务有一层隐层（1024神经元），之后有一层柔性最大激活函数（softmax)。其中我们的神经元均使用精馏线性单元（rectified linearunit)。

Fig2 The multitask learning DNN

基于整句话高层表述的识别系统也是采用一个深度神经网络，同样也是采用多任务训练方式进行训练。采用的特征为200维iVector(从一个由4000小时语音训练的语音识别(ASR)系统中提取）。这里我们采用的网络结构与底层特征识别系统的神经网络相同，唯一的区别为，这个一个系统在trunk部分每一层只有1024个神经元。

基于序列特征的子系统采用递归神经网络，对输入序列进行建模，在递归神经网络上采用基于attention model的加权池化层(weighted pooling)(见Fig 3)，将输入的一个序列提取成一个高层表述。基于这个高层表述进行分类。这一子系统也采用多任务训练方式进行训练。这一递归网络与上述神经网络的大致结构相似，区别为在trunk部分，我们使用了RNN，并且在RNN上利用attention based weighted pooling layer来提取高端表述（high level representation)。