Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

简介: INTERSPEECH是由国际语音通讯协会创办的语音信号处理领域顶级旗舰国际会议。继去年11篇论文入选INTERSPEECH 2020之后,本次INTERSPEECH 2021阿里巴巴达摩院语音实验室再度有9篇论文被接收,包括语音识别,语音合成,后处理技术,前端信号处理技术等研究方向。本文我们将对这些论文进行解读。

image.png

作者 | 达摩院语音实验室
来源 | 阿里技术公众号

INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。

今年的INTERSPEECH 2021于8月30号~9月3号在捷克布尔诺举行。本次的会议采用线上视频会议和线下会议同步进行的方式。

继去年11篇论文入选INTERSPEECH 2020之后,本次INTERSPEECH 2021阿里巴巴达摩院语音实验室再度有9篇论文被接收。本次被接收的论文研究方向包括语音识别,语音合成,后处理技术,前端信号处理技术等研究方向。下文我们将对这些论文进行解读。

一 语音识别

1 极低尺寸的设备端语音识别系统

Extremely Low Footprint End-to-End ASR System for Smart Device

近年来,端到端语音识别变得流行起来,因为它可以将声学、发音和语言模型集成到单个神经网络中,并且优于传统模型。在端到端方法中,基于注意力的模型,例如,Transformer 已经成为主流方法。端到端模型打开了在智能设备上部署语音识别系统的大门,但它仍然受到模型参数量大的困扰。本文为智能设备提出了一种占用空间极低的端上语音识别系统,以实现在不牺牲识别精度的情况下满足资源受限的目标。我们设计了跨层权重共享结构来提高参数效率,进一步利用包括稀疏化和量化在内的模型压缩方法,以减少内存存储并提高智能设备的解码效率。

image.png

我们在公开的 AISHELL-1 和 AISHELL-2 基准测试中评估了本文的方法。在 AISHELL-2 任务上,所提出的方法实现了 10 倍以上的压缩(模型大小从 248MB 到 24MB),同时性能损失很小(CER 从 6.49% 到 6.92%)。

二 语音合成

1 EMOVIE: 中文普通话开源情感语音数据库

EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model

近几年来,神经网络语音合成技术愈发受到人们的关注,也取得了很好的成果。但是,由于缺少高质量情感数据以及先进的语音合成情感模型,如何合成更具表现力的音频成为了研究人员的一个新的挑战。在这篇文章中,我们开源了一份中文普通话情感语音数据库——EMOVIE。这个数据库的音频来自于7部中文普通话电影,考虑到需要尽量低的背景噪声,电影类型主要是故事片和喜剧片。基于字幕中的文本和时间戳信息,我们进行切音、转录和筛选,最终获得了9724句音频,共约4.18h。在数据标注的时候,我们采用 -1、-0.5、0、0.5、1五个情感极性(emotion polarity)对每个音频进行人工标注。通过极性分布图(Fig 1.a)可以看到,极性为-0.5和0.5的音频占比约79%,而-1和1的音频占比较小。通过长度分布图(Fig 1.b),EMOVIE的音频的平均长度为1.78s,每句音频平均8.93个字。

image.png

进一步地,我们还提出了一种简单但有效的情感语音合成模型——EMSpeech,它通过输入的文本信息来预测情感标签,进而生成更具表现力的音频。通过语谱图和表现力MOS,我们看到,相比于FastSpeech2,EMSpeech能够生成更具情感的音频。同时,通过实验,EMSpeech也有一定的情感控制能力。

image.png

三 后处理技术

1 联合文本和音素表征学习的口语理解预训练

Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning

用于口语理解 (SLU) 的传统级联架构中,已经观察到自动语音识别(ASR)错误可能会损害自然语言理解的性能。端到端 (E2E) SLU 模型已经提出用单个模型将语音输入直接映射到所需的语义,从而减轻 ASR 错误传播。最近,针对这些 E2E 模型已经探索了预训练技术。

本文提出了一种联合文本和音素预训练的表征学习方法,可以利用音素信息来提升口语语言理解任务对于ASR错误的鲁棒性。我们探索了音素标签作为一种高层次的语音特征,设计和比较了基于条件掩码语言模型目标和句间关系目标的预训练方法。我们也探索了结合文本和音素信息在模型finetune的有效性。在Fluent Speech Commands和SNIPS两个公开数据集上的实验结果表明,提出的方法可以显著提升基线模型效果以及提升口语语言理解任务对于ASR错误的鲁棒性。

image.png

2 区分式自训练的标点预测

Discriminative Self-training for Punctuation Prediction

标点预测任务对于提升ASR输出文本的可读性和提升下游自然语言处理任务的效果起到至关重要的作用。然而,要想取得好的标点预测效果,往往需要大量的标注的口语文本,这往往是耗费大量人力物力的。

本文提出了一种区分式self-training方法,即weighted loss和区分式label smoothing的方法,来利用无标注的口语文本数据。在英文公开数据集IWSLT2011和一个内部中文数据集上,实验表明我们提出的方法可以进一步提升很强的基线模型,包括BERT, RoBERTa和ELECTRA。另外,提出的区分式self-training方法相较经典self-training方法的效果有一定提升。我们在IWSLT2011公开数据集上获得了新的SOTA,有1.3 F1的绝对提升。

image.png

四 前端信号处理技术

1 联合声学特征和空间特征的会议场景混叠语音检测技术

Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings

多人会议场景,存在一个普遍的现象是多人同时说话造成的混叠语音。这种混叠语音的存在对于后续语音增强,语音识别等任务都造成了很大的挑战。本研究我们探索如何有效的检测出多人会议的音频信号中的混叠语音。不同于过往的只利用单通道的音频信号进行混叠语音检测,我们的研究探索了实际录制的8通道语音信号利用信号处理提供的声源空间信息和音频声学信息来联合进行建模进行混叠语音检测。特别的,我们提出了two-stream DFSMN来有效联合建模两种特征,以及提出了一种基于attention的pooling技术来实现句子级的建模。我们在真实录制的会议数据集上进行了实验验证,结果显示联合音频和空间信息的混叠语音检测相比于基线基于音频的检测方法可以获得明显的性能提升。

image.png

image.png

image.png

2 带定向麦克风的线性阵列的最小范数差分波束成形

Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones

差分麦克风阵列技术(DMA,differential microphone array)或者差分波束成形技术(differential beamforming),由于具有较多的物理特性优势,尤其适合语音信号处理,近年来成为信号处理领域研究热点,同时在工业界也被广泛使用。

image.png

我们在差分麦克风阵列理论研究持续耕耘,继去年收录环形阵列差分波束论文之后,本次收录论文进一步在线性阵列上面拓展研究,利用指向性麦克风在线性麦克风阵列上进行差分波束设计,我们将提出的方法称之为线性差分指向性麦克风阵列(Linear differential directional microphone array (LDDMA)), 此方法扩展了线性差分阵列(linear differential microphone array,LDMA)的设计理论,通过理论分析证明,指向性麦克风组成的差分阵列可以在WNG(白噪声增益)和DI(指向因子)两个维度都比目前业界常用的全向性麦克风组成的差分阵列取得明显优势。同时也探索了指向性麦克风的陷零点和差分波束陷零点的数学关系。

3 基于神经网络掩码和注意力模型的实时多通道语音增强

Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model

近年来,虽然语音增强方法的性能得到了很大的提升,但是在远场和复杂的会议室环境中,基于麦克风阵列的语音增强方法仍然有一系列开放的问题需要进一步解决。

本文提出了一种实时的多通道语音增强方法,它由所设计的带注意力机制的复数值掩码估计网络和差分波束形成两个部分组成。

具体来说,在训练阶段,复数值掩码估计网络从多通道数据中估计出单通道目标掩码。
在测试阶段,为了进一步抑制噪声,我们首先利用差分波束形成技术来抑制来自非目标方向的干扰信号,从而获得相对干净的频谱。然后将估计的掩码作用于差分波束成形所输出的频谱,作为最终的输出结果。

image.png

实验结果表明,本文所提出的方法在PESQ和MOS等指标上取得了优于现有技术的性能。

4 在混响环境中使用定向麦克风阵列进行 DOA 估计的 Cramer-Rao 下限

Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments

目前主流的DOA估计方法主要使用全向麦克风阵列拾取信号,利用麦克风间的相位信息进行DOA估计。本文针对混响环境下DOA估计误差大的问题,使用指向性麦克风阵列代替全向麦克风阵列,结合使用振幅和相位信息,增加DOA方法的鲁棒性,并利用克拉美罗下界(CRLB)进行理论分析。

本文通过建模混响信号为isotropic noise,建立混响的互功率谱密度矩阵,进而计算出对应的费雪信息矩阵,得到DOA估计的CRLB。通过理论分析,即对比CRLB发现对于线性阵列,基于指向性麦克风的误差下界低于基于全向麦克风的误差下界。同时利用SRP、MVDR和MUSIC三种DOA方法通过实验对比表明,基于指向性麦克风的RMSE低于基于全向麦克风的RMSE。

image.png

5 基于盲源分离的回声消除、去混响、声源分离统一框架

Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation

回声消除、去混响、声源分离是语音增强系统中的三个主要问题。传统系统通常采用的是级联架构,三个子任务分别由三个独立的模块完成,三个模块有各自的理论背景、目标函数和优化方法。级联架构的系统虽然具有灵活性,但是各自模块的任务迭代到最优,并不等于全局结果达到最优。本文将回声消除、去混响、声源分离这三个子任务都统一到了盲源分离的信号模型框架下,并使用auxiliary-function based in-dependent component/vector analysis (Aux-ICA/IVA)的方法进行求解。本文中的方法具有统一的信号模型、目标函数、迭代方法,实验证明这种统一框架有望比独立模块的系统具有更好的语音增强性能。

达摩院语音实验室论文下载链接:

1.极低尺寸的设备端语音识别系统

Extremely Low Footprint End-to-End ASR System for Smart Device

论文链接:https://arxiv.org/abs/2104.05784

论文来源:阿里巴巴达摩院语音实验室独立完成

  1. EMOVIE: 中文普通话开源情感语音数据库

EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model

论文链接:https://arxiv.org/pdf/2106.09317.pdf

论文来源:阿里巴巴达摩院语音实验室与浙江大学合作完成

  1. 联合文本和音素表征学习的口语理解预训练

Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning

论文链接:https://arxiv.org/pdf/2104.10357.pdf

论文来源:阿里巴巴达摩院语音实验室独立完成

  1. 区分式自训练的标点预测

Discriminative Self-training for Punctuation Prediction

论文链接:https://arxiv.org/pdf/2104.10339.pdf

论文来源:阿里巴巴达摩院语音实验室独立完成

  1. 联合声学特征和空间特征的会议场景混叠语音检测技术

Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings

论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2021/zhang21w_interspeech.pdf

论文来源:阿里巴巴达摩院语音实验室独立完成

  1. 带定向麦克风的线性阵列的最小范数差分波束成形

Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones

论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2021/huang21_interspeech.pdf

论文来源:阿里巴巴达摩院语音实验室独立完成

  1. 基于神经网络掩码和注意力模型的实时多通道语音增强

Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model

论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2021/xue21_interspeech.pdf

论文来源:阿里巴巴达摩院语音实验室与湖南大学合作完成

  1. 在混响环境中使用定向麦克风阵列进行 DOA 估计的 Cramer-Rao 下限

Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments

论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21h_interspeech.pdf

论文来源:阿里巴巴达摩院语音实验室与湖南大学合作完成

  1. 基于盲源分离的回声消除、去混响、声源分离统一框架

Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation

开源代码地址:https://github.com/nay0648/unified2021

论文来源:阿里巴巴达摩院语音实验室独立完成


低代码召集令!

参与低代码话题相关投稿,谈谈“你对低代码的理解”,“利用低代码工具真的实现降本增效吗”等话题。活动准备了Air Pods Pro,机械键盘,移动硬盘,阿里云定制书包等精美礼品等你来领!

点击这里,参与活动!

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台PAI多篇论文入选EMNLP 2023
近期,阿里云人工智能平台PAI主导的多篇论文在EMNLP2023上入选。EMNLP是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选意味着阿里云人工智能平台PAI自研的自然语言处理算法达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。
|
10月前
|
机器学习/深度学习 人工智能 达摩院
INTERSPEECH2023|达摩院语音实验室入选论文全况速览
INTERSPEECH2023|达摩院语音实验室入选论文全况速览
617 1
|
11月前
|
机器学习/深度学习 达摩院 自然语言处理
ICASSP2023|达摩院语音实验室入选论文全况速览
近日,语音技术领域国际会议ICASSP公布了本届论文审稿结果,阿里巴巴达摩院语音实验室有14篇论文被大会收录。本次被接收的论文研究方向涵盖语音识别、语音唤醒、语音增强、说话人日志、语义理解、多模态预训练等。 ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学,语音和信号处理会议,是IEEE信号处理协会组织的年度旗舰会议。历届的ICASSP会议都备受全球信号处理领域研究学者的广泛关注,ICASSP2023将于6月4号至6月10号于希腊举办。
467 0
|
11月前
|
机器学习/深度学习 传感器 人工智能
CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的
CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的
152 0
|
11月前
|
机器学习/深度学习 人工智能 算法
一览端到端人脸识别最新进展,上大&京东AI研究院综述被ACM旗舰期刊接收
一览端到端人脸识别最新进展,上大&京东AI研究院综述被ACM旗舰期刊接收
173 0
|
机器学习/深度学习 人工智能
AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛 ——10: 10-10: 40 Satinder 教授《Discovery in Reinforcement Learning》
AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛 ——10: 10-10: 40 Satinder 教授《Discovery in Reinforcement Learning》
AI:2020年6月24日北京智源大会演讲分享之强化学习专题论坛 ——10: 10-10: 40 Satinder 教授《Discovery in Reinforcement Learning》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——11:30-12:00唐杰 教授《CogDL:An Extensive Research Toolkit for Deep Le》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——11:30-12:00唐杰 教授《CogDL:An Extensive Research Toolkit for Deep Le》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——11:30-12:00唐杰 教授《CogDL:An Extensive Research Toolkit for Deep Le》
AI:2020年6月22日北京智源大会演讲分享之10:40-11:30 Zoubin教授《Probabilistic Machine Learning and AI》
AI:2020年6月22日北京智源大会演讲分享之10:40-11:30 Zoubin教授《Probabilistic Machine Learning and AI》
AI:2020年6月22日北京智源大会演讲分享之10:40-11:30 Zoubin教授《Probabilistic Machine Learning and AI》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——10:05-10:50 东昱晓 《Graph Representation Learning》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——10:05-10:50 东昱晓 《Graph Representation Learning》
AI:2020年6月24日北京智源大会演讲分享之知识智能专题论坛——10:05-10:50 东昱晓 《Graph Representation Learning》
|
弹性计算 人工智能 运维
阿里云与达摩院合作 AHPA 弹性预测论文被顶会 ICDE 录用
近日,阿里云容器服务团队与达摩院数据决策团队合作的论文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。