朋友,我能分享你的喜怒吗?阿里语音情感识别框架揭秘

简介: 情感识别(即,识别开心,忧伤等)现在愈来愈受到人们的关注,因为它可以提升人机交互界面的用户体验,进而提升产品的用户粘性,并在心理医疗健康方面等具有独特价值。基于语音的情感识别尤其具有现实意义,因为基于语音的人机交互界面具有相对较低的硬件要求。

image

小叽导读:情感识别(即,识别开心,忧伤等)现在愈来愈受到人们的关注,因为它可以提升人机交互界面的用户体验,进而提升产品的用户粘性,并在心理医疗健康方面等具有独特价值。基于语音的情感识别尤其具有现实意义,因为基于语音的人机交互界面具有相对较低的硬件要求。但是,在现实中,周围环境中存在着许多噪声,这些噪声将会降低系统的识别性能。在本文中我们提出了一套包含多个子系统的复合情感识别框架。这一框架会深入挖掘输入语音中与情感相关的各个方面的信息,从而提高系统的顽健性。

作者:陶斐、刘刚、赵情恩

会议:ICASSP-2018

研究背景

在现实生活中,基于语音的人工智能系统处在复杂的场景当中,因而会面临各种各样的挑战。对于情感识别来说,主要的挑战来自于两个方面:

周围存在背景噪声,因而传统的特征提取,比如在整句话层面上提取统计参数的方法将受到严重干扰;

用户说话的方式比较随意,不能如实验室中那样很好地控制输入语音,有时候用户会有一些发出一些非语音的声音,比如哭声,笑声,咳嗽声等,这些声音有些与情感有关,有些则完全无关。

面对这两个挑战,我们提出了一套复合情感识别框架。这套框架会对底层和高层特征进行识别,因此可以对一些背景噪声有一定的顽健性;同时这套框架也会利用注意力模型(attention model)学习特征序列中重要时间点的特征,以及利用语音中的文本信息对情感信息进行分类——这些机制可以有效避免用户的非语音声音或者长静音对识别的干扰。

复合情感识别框架

在本文中,我们提出了一套复合的情感识别框架。这一框架由若干子系统组合而成,其中包括基于整句话(utterance level)底层特征(low level descriptor)的识别系统,基于整句话高层表述的识别系统,基于序列特征的识别系统,以及基于语义信息的识别系统(见Fig 1)。

image

Fig1 The proposed ensemble framework for emotion recognition

其中,基于整句话底层特征的识别系统为一个深度神经网络,采用多任务训练(multitasklearning)方式进行训练(见Fig 2),采用的特征为从opensmile提取的Interspeech 2010 LLD特征集。在这个神经网络中,我们在trunk部分有两层隐层(hidden layer)(每层4096个神经元),在branch部分,每个任务有一层隐层(1024神经元),之后有一层 柔性最大激活函数(softmax)。其中我们的神经元均使用精馏线性单元(rectified linearunit)。

image

Fig2 The multitask learning DNN

基于整句话高层表述的识别系统也是采用一个深度神经网络,同样也是采用多任务训练方式进行训练。采用的特征为200维iVector(从一个由4000小时语音训练的语音识别(ASR)系统中提取)。这里我们采用的网络结构与底层特征识别系统的神经网络相同,唯一的区别为,这个一个系统在trunk部分每一层只有1024个神经元。

基于序列特征的子系统采用递归神经网络,对输入序列进行建模,在递归神经网络上采用基于attention model的加权池化层(weighted pooling)(见Fig 3),将输入的一个序列提取成一个高层表述。基于这个高层表述进行分类。这一子系统也采用多任务训练方式进行训练。这一递归网络与上述神经网络的大致结构相似,区别为在trunk部分,我们使用了RNN,并且在RNN上利用attention based weighted pooling layer来提取高端表述(high level representation)。

image

Fig 3 The attention based weighted poolingRNN

上述三个子系统中的多任务训练,我们采用三个任务,情感识别为主任务(权重为1),说话人识别(权重为0.3)和性别识别(权重为0.6)为辅助任务。在多任务训练中,由于系统可以看到更多的任务信息,可以更好地检视输入的特征,因此可以更好地训练神经网络。

除了上述三个子系统外,还有一个子系统是基于文本的子系统。该子系统采用支持向量机(supportvector machine),使用了从语音识别系统中获取的文本。这一系列子系统的识别结果会通过线性相加组合起来,从而得到最后的结果。

实验

我们在多模情感识别竞赛2017数据集(MEC 2017)上测试这一套框架。MEC 2017数据集是采集自影视作品,其中包含了许多背景噪声(汽车噪声,工厂噪声等等),以及说话人的非语音声音(哭声、笑声等等)。其中各类情感的分布如下。

image

根据MEC 2017的建议,我们采用无权重平均F-score(MAF)和准确率作为我们的衡量标准。考虑到数据库中的数据不平衡性,我们主要关注MAF指标。

实验中,我们采用两套系统作为参照系统,一套是MEC2017建议的random forest 系统,还有一套是利用Interspeech 2017特征集搭建DNN的情感识别系统。具体实验结果如下:

image

由实验结果可以看到,我们提出的这一套框架,可以远远超过参照系统(分别增加了11.9%和7.8%准确率)。即使四个子系统的识别率参差不齐,最后组合之后的结果依然超过了所有的子系统,可以推测这个过程中全面检视输入信息,可以很有效的提高识别准确率和系统顽健性。

结论

我们将这一套系统应用于中文的影视作品数据库上。之所以应用到这一数据库上,是因为影视作品中的场景比较接近现实生活。结果显示,我们的系统可以全面超越现有的基于深度学习的前沿系统。这一成功,可以说明我们的这一套框架可以有助于在现实中实现情感识别。

原文发布时间为:2018-12-25
本文作者: ICASSP-2018论文
本文来自云栖社区合作伙伴“ 阿里巴巴机器智能”,了解相关信息可以关注“ 阿里巴巴机器智能”。

相关文章
|
7月前
|
编解码 自然语言处理 开发者
复刻Sora有多难?一张图带你读懂Sora的技术路径
OpenAI发布了视频生成模型Sora,最大的Sora模型能够生成一分钟的高保真视频。同时OpenAI称,可扩展的视频生成模型,是构建物理世界通用模拟器的一条可能的路径。
|
7月前
|
机器学习/深度学习 编解码 人工智能
AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频
AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频
820 0
|
4月前
|
机器学习/深度学习 语音技术 开发工具
【独家秘籍】揭秘!如何用阿里云TTS魔法般将文字瞬间变成天籁之音,让你的作品开口说话,震撼人心!
【8月更文挑战第15天】通过阿里云语音合成服务(TTS),开发者可将文本转为自然语音,适用于有声阅读、客服等场景。首先注册并获取AccessKey ID/Secret,然后安装阿里云Python SDK。使用示例代码设置语音参数(如发音人xiaoyun、引擎wavenet),发送请求并保存生成的MP3文件。注意正确认证及异常处理,以确保应用稳定可靠。
361 0
|
4月前
|
人工智能 文字识别 算法
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
71 4
|
自然语言处理 安全 算法
FAQ 问答系统(新冠病毒/寝室)《《让电脑理解我说的话》》------更详细的了解和掌握自然语言知识(不再害怕面试~~~)=-------= 文章中含有源码分析
FAQ 问答系统(新冠病毒/寝室)《《让电脑理解我说的话》》------更详细的了解和掌握自然语言知识(不再害怕面试~~~)=-------= 文章中含有源码分析
136 1
FAQ 问答系统(新冠病毒/寝室)《《让电脑理解我说的话》》------更详细的了解和掌握自然语言知识(不再害怕面试~~~)=-------= 文章中含有源码分析
|
机器学习/深度学习 人工智能 自然语言处理
AI模型教你写出秒抓读者眼球的好标题
广告大师大卫·奥格威曾在《一个广告人的自白》中提到:标题在大部分广告中,都是最重要的元素,能够决定读者会不会看这则广告。一般来说,读标题的人比读内人的人多出4倍。换句话说,你所写标题的价值将是整个广告预算的80%。因此对于一篇文章、新闻来说,标题的好坏决定了点击和流量。本文介绍通过ModelScope的AI模型PALM来完成标题/摘要生成
AI模型教你写出秒抓读者眼球的好标题
|
机器学习/深度学习 缓存 算法
语音评测技术在古文背诵中的应用
语音评测技术和语音识别任务非常类似,近些年都获得了快速发展,语音识别中各种端到端算法不仅简化了训练流程,同时降低了整体错误率。评测技术也从原来的 HMM-GMM 升级到 HMM-DNN,准确率大幅提升。
504 0
语音评测技术在古文背诵中的应用
|
机器学习/深度学习 人工智能 自然语言处理
响铃:当AI翻译能识别“语境”,我们的“地球村”梦想就不远了
响铃:当AI翻译能识别“语境”,我们的“地球村”梦想就不远了
251 0
响铃:当AI翻译能识别“语境”,我们的“地球村”梦想就不远了
|
机器学习/深度学习 人工智能 算法
视频访谈百度IDL林元庆:百度大脑如何在人脸识别上战胜人类「最强大脑」
2017 年 1 月 6 日,百度首席科学家吴恩达带着小度机器人来到了《最强大脑》现场,与人类选手展开了对决,并在人脸识别比赛里以 3:2 的比分赢得胜利。Master 事件引发大众热议人工智能的余热未退,小度机器人又在跨年龄人脸识别挑战中战胜了本届最强大脑队长王峰——拥有数个世界冠军头衔的「世界记忆大师」。与以往主要考验空间搜索能力的人机 PK 不同,此次比拼主要集中在识别领域,而识别过程中需要模糊推理的能力,百度深度学习实验室(IDL)主任林元庆坦言,这场应战也并不轻松。
179 0
视频访谈百度IDL林元庆:百度大脑如何在人脸识别上战胜人类「最强大脑」
|
人工智能 达摩院 语音技术
明晚直播预告:破解图灵测试的钥匙,一窥语音技术的大图
4月16日 19:00,达摩院语音实验室负责人、IEEE senior member鄢志杰,做客2020春季创业节直播间。与大家一起“破解图灵测试的钥匙,一窥语音技术的大图”。
明晚直播预告:破解图灵测试的钥匙,一窥语音技术的大图
下一篇
DataWorks