ICASSP 2022 论文分享:语音增强与关键词检测联合优化技术在扫地机器人中的应用

简介: ICASSP 2022 论文分享:语音增强与关键词检测联合优化技术在扫地机器人中的应用

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。

本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

会议在即,我们将定期推出前沿技术论文的深度解读系列文章,以期与产学研界切磋交流。本文主要介绍语音增强和关键词检测联合优化技术,及其在扫地机器人项目中的实践效果。/本文作者/纳跃跃、王子腾、王亮、付强

在AIoT时代,终端设备包括智能家居/家电、智能车机和可穿戴设备等人机交互场景中,语音交互的渗透率越来越高。作为语音交互链路的前级模块,语音唤醒功能的核心技术是关键词检测(Keyword Spotting ,KWS), 其性能直接关系到产品的用户体验和人机交互效率。

对于远讲语音交互任务来说,由于目标声源距离拾音设备较远,所以原始音频信号容易受到设备回声、人声/非人声干扰、环境噪声、房间混响等不利声学因素影响,导致原始信号的信噪比和语音可懂度较低,不利于关键词的检出。所以关键词检测一般需要和语音增强(Speech Enhancement, SE)技术配合使用。语音增强,在语音交互领域或称前端信号处理和声学前端等,泛指一系列的信号处理和机器学习技术,例如回声消除、混响抑制、盲源分离、波束形成等,用于应对某一类或某几类不利声学因素的影响,提升输出信号的信噪比(包括信干比、信回比等),便于后续模块,例如关键词检测和语音识别获得更好的性能表现。在面向远场语音交互的语音前端信号处理技术中,我们完整构建了以盲源分离理论为核心的统一框架:将声源分离、混响抑制和回声消除统一在盲源分离理论框架下,统一了目标函数和优化方法[1-3]。这一技术路线的出发点是针对消费类电子设备高性能、低成本和低功耗的需求特点,其性能较各模块独立优化进一步提高。本文介绍的语音增强和关键词检测联合优化技术,是进一步地完善声学语音一体化理念的实践,目的是面向嵌入式应用,产出更高性价比的端侧语音AI技术。作为业务实践,本技术在扫地机器人项目中取得了较好的实用效果,相关工作也发表到了ICASSP2022会议上[4]。

在文献[5]中,作者用语音增强+关键词检测的系统和人类的听觉系统进行了对比,如图1所示:基于信号处理的语音增强模块就好比于人的耳朵、耳蜗等感知器官,用于接收外界声音,并对音频信号进行加工,从中提取底层特征;而关键词检测模块则类比于人的大脑,对底层特征进行深度处理,从而对环境作出理解认知,并将决策信息反馈回感知器官,以实现对外界信息更好的感知。

图片.pngimage.gif

图1 联合推理框架与人类听觉系统的类比[5]

从人类听觉系统的工作循环中可以看出,除了从感知器官向大脑的自底向上的信息传递之外,还存在从大脑向感知器官自上而下的控制反馈。本文中的系统框架也借鉴了这种反馈机制,使得两个模块之间能够更紧密的进行配合,实现更高效的联合语音增强和关键词检测。


#01 多通道关键词检测

在我们以往的系统中,关键词检测模型为单路模型,这种架构在单通道应用中是足够胜任的。但是在某些应用中,语音增强前端输出的是多通道的增强后的信号,例如基于盲源分离的前端能输出多路目标语音、干扰语音、干扰噪声分离后的信号;基于multi-look beamforming [6]的前端能输出多个预定义方位的增强信号。在这类多路输出的系统中,以往的方式是在每路前端输出后面都接一个单路的关键词检测模块,任何一路模块中检测到关键词即算唤醒。之后通过事件融合和通道选择模块统一上报唤醒事件并选择上云音频通道。

该系统架构如图2所示:

image.gif图片.png

图2 单通道关键词检测模块组合成多通道应用

这种组合而成的系统虽然暂时满足了多通道的应用需求,但其中仍然存在一些缺点:

第一是虚警问题,由于多路信号中虚警发生的概率可以近似认为是相互独立的,所以每增加一个通道,虚警就比单通道的关键词检测近似增加一倍;

第二是计算量问题,每增加一个通道,关键词检测的计算量也随之增加一倍;

第三是增加了系统的复杂性,由于各路关键词检测上报事件的机制也是相互独立的,所以经常会发生信噪比高的通道后唤醒的情况,所以需要复杂的缓存和等待逻辑来对事件和数据进行同步。

为了弥补上述不足,我们开发了如下图3所示的多通道关键词检测信息融合和通道选择机制首先,关键词检测模型由若干层FSMN((Deep) Feedforward Sequential Memory Networks [7])单元级联而成,FSMN网络结构具有性能优越、实现简单、训练速度快等优点。为了实现多通道信息融合,我们利用注意机制[6]对多通道音频特征进行加权融合,将原本多路关键词检测任务简化为单路检测。同时,注意机制的加权结果又能揭示最佳通道的选择结果。此种架构同时解决了上述虚警、计算量、同步性的缺点,进一步提升了整体性能。

图片.png

image.gif图3 多通道关键词检测信息融合和通道选择机制


#02 多通道神经网络推理框架

传统神经网络推理框架一般为单通道的形式,其推理过程如公式(1)所示,其中 xy 分别为网络的输入和输出向量,f(•) 为激活函数,Wb 分别为网络的权值和偏置。如果是存在记忆单元的网络,例如 CNNFSMN 等,则还存在相应的单通道记忆结构。

y=f(Wx+b)

如果是多通道的推理需求,则可以用多个单通道的推理框架来完成,例如图2中的系统。但是,多个单通道的推理框架不利于实现通道间的协作,例如图3中的系统要求在多个通道间做加权融合,将多通道信息融合为单通道后再完成后续的推理。

为了方便多通道推理需求,我们实现了多通道神经网络推理框架,其一般形式如公式(2)所示。对比于公式(1)中的单通道推理框架,公式(2)中的多通道推理过程相当于各个通道的网络参数相同,但数据不同

y1 = f(Wx1+b)

y2 = f(Wx2+b)

yN = f(WxN+b)

与多个单通道推理组合而成的系统相比,公式(2)中的推理框架除了天然就支持多通道数据的推理之外,还更容易实现类似公式(3)中的多通道协同操作,为多通道关键词检测的实现奠定了基础。

y= f(x1, ..., xN)

#03 自适应HMM解码器

关键词检测,以及离线命令词模块大多采用“声学模型+解码器”的架构,声学模型以音频特征为输入,并输出各个发音单元的观测概率;解码器负责对观测概率进行平滑,并从中定位出特定组合顺序的关键词。HMM(Hidden Markov Model)常用于构造解码器。在传统的HMM解码器中,HMM的各种参数通过离线训练得到,在应用中固定不动。所以其特性反映的是在某个离线数据集上的平均性能。

但是在实际应用中,声学环境往往是变化的,所以HMM解码器仅凭平均性能下的单一参数不足以适应不同场景下的声学环境。针对这个问题,我们研发了自适应的HMM[8]解码器,使得解码器参数能在极大似然估计的理论框架下随输入信号自适应更新,达到了在不同场景中自适应调节,从而进一步提升关键词检测性能的目的。另外,根据关键词和离线命令词的应用特点,并不是所有发音单元都可以相互转移的。例如,“天猫精灵”关键词中,可以从“猫”转移到“精”,但是并不能从“精”转移到“猫”。针对发音单元稀疏性的特点,我们采用了稀疏HMM的数据结构,进一步降低了解码过程的计算量。


#04 数据模拟与模型训练

在以往的系统中,关键词检测模型往往采用单通道、短语音的训练方式。这种训练方式虽然实现简单,但不易与前级的语音增强模块做到完全匹配(输入通道数不同,语音增强算法不同),在一定程度上造成了性能损失。

要在训练阶段实现完全的数据匹配,首先需要多通道、长音频数据模拟功能的支持。这样才能使用和实际处理中相同的语音增强前端来处理多通道数据,并且长音频才能保证自适应信号处理算法有足够的数据收敛,达到正常的语音增强性能。

本文中用于关键词检测模型训练的数据模拟框架如图4所示。除了大批量模拟多通道、长音频的功能之外,该框架还支持了安静、点声源干扰、回声、散射噪声场景的模拟,以及这些场景的各种组合。在数据模拟的基础上,我们还形成了从音源到特征的工具链建设,使得训练阶段实现完全的数据匹配为可能。

图片.png

图4 数据模拟系统框架


#05 在扫地机器人项目中的应用

扫地机器人作为一种特殊品类的家用电器,其使用场景中除了设备回声、人声干扰、环境噪声、房间混响等不利声学因素影响之外,机器人自噪声(ego-noise)的影响不可忽视,自噪声给语音增强和关键词检测任务带来了更加严峻的挑战。主要的难点有以下几方面:第一,由于噪声源距离拾音设备较近,所以信号的信噪比极低(-10至-15dB);第二,扫地机器人自噪声是一种复合噪声,其成分复杂多样,例如来自于机器人上的多个电动机、扫地和/或拖地刷、机器人的轮子、吸尘器等部件产生的噪声。该复合噪声中既包含方向性较为明显的点声源干扰成分,例如电动机噪声,又包含方向性较为模糊的散射噪声成分,例如吸尘器风噪。并且相对于语音干扰来说,扫地机器人自噪声是非稀疏的,不具有明显的谐波结构;第三,扫地机器人工作过程中,其位置是相对于用户实时变化的。实时变化的语音信道将导致语音信号的统计信息难以被估计,从而增加了信号处理算法的难度。为了应对这些困难,我们采用了如图5所示的实现架构。其中降噪方法使用的是multi-look MVDR波束形成[6],由于目标说话人方位未知,并且会发生移动,所以预先定义了若干方位来进行语音增强,避免了对目标统计量的估计。后续的关键词检测模块接收增强后的多通道音频特征,并预测各个发音单元的存在概率。同时,关键词缺失概率可以反馈回语音增强算法中,用于指导噪声协方差矩阵的估计,从而实现了语音增强和关键词检测的联合迭代优化。

图片.png

图5 扫地机器人中的语音增强与关键词检测联合优化技术

在业务落地方面,天猫精灵与达摩院语音的实验室合作在科沃斯旗舰新品N9+上落地了以上技术,产品在2021年6.18上市,成为行业首款克服极低信噪比设备自噪的扫地机。随着技术不断升级,并在2022年1月召开了扫地机行业大会,发布了升级版的标准化高抗噪模组,正式推动了行业标配。


|| 总结

在我们以往的项目中,语音增强和关键词检测为两个相互独立的模块,两个模块之间级联工作,数据前向传递。由于两个模块的目标函数和优化方法不同,每个模块各自最优并不能使得整体系统性能达到最优。为了进一步提升整体系统性能,实现在训练阶段和推理阶段的语音增强和关键词检测联合优化,我们研发了若干相关技术,包括多通道关键词检测模型,多通道神经网络推理框架,自适应HMM解码器,相应的长音频数据模拟工具和训练工具,以及在推理阶段实现关键词检测到语音增强的信息反馈。这些技术都集成到了我们研发的端侧AI工具包中,在相关的项目应用中取得了较好的效果。

参考文献

[1] Na, Yueyue, et al. "Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation." Interspeech, 2021.

https://github.com/nay0648/unified2021

[2] Wang, Ziteng, et al. "Weighted recursive least square filter and neural network based residual echo suppression for the aec-challenge." ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.

[3] Ziteng Wang, et al. "A Semi-blind Source Separation Approach for Speech Dereverberation." INTERSPEECH. 2020.

[4] Yueyue Na, Ziteng Wang, Liang Wang, Qiang Fu. "Joint EGO-noise suppression and keyword spotting on sweeping robots". ICASSP 2022.

https://github.com/nay0648/ego2022

[5] Huang, Yiteng, et al. "Supervised noise reduction for multichannel keyword spotting." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

[6] Ji, Xuan, et al. "Integration of multi-look beamformers for multi-channel keyword spotting." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.

[7] Zhang, Shiliang, et al. "Feedforward sequential memory networks: A new structure to learn long-term dependency." arXiv preprint arXiv:1512.08301 (2015).

[8] Ying, Dongwen, and Yonghong Yan. "Noise estimation using a constrained sequential hidden Markov model in the log-spectral domain." IEEE transactions on audio, speech, and language processing 21.6 (2013): 1145-1157.


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11天前
|
安全 搜索推荐 机器人
纳米技术与医疗:纳米机器人的临床应用前景
【9月更文挑战第28天】纳米机器人作为纳米技术在医疗领域的重要应用,正逐步改变着传统医疗的面貌。它们在药物输送、癌症治疗、手术辅助和疾病诊断等方面展现出广阔的应用前景。随着科学技术的不断进步和纳米技术的不断成熟,我们有理由相信,纳米机器人将成为医疗领域的一个重要且不可或缺的组成部分,为人类的健康事业做出更大的贡献。同时,我们也应关注纳米技术的安全性和可靠性问题,确保其在医疗应用中的安全和有效。
|
3月前
|
机器学习/深度学习 自然语言处理 算法
NLP技术在聊天机器人中的应用:技术探索与实践
【7月更文挑战第13天】NLP技术在聊天机器人中的应用已经取得了显著的成果,并将在未来继续发挥重要作用。通过不断探索和创新,我们可以期待更加智能、自然的聊天机器人的出现,为人类生活带来更多便利和乐趣。
|
4月前
|
机器学习/深度学习 传感器 算法
强化学习(RL)在机器人领域的应用
强化学习(RL)在机器人领域的应用
73 4
|
4月前
|
机器学习/深度学习 传感器 算法
强化学习(RL)在机器人领域的应用,尤其是结合ROS(Robot Operating System)和Gazebo(机器人仿真环境)
强化学习(RL)在机器人领域的应用,尤其是结合ROS(Robot Operating System)和Gazebo(机器人仿真环境)
158 2
|
3月前
|
数据采集 传感器 监控
LabVIEW在机器人研究所中的应用
LabVIEW在机器人研究所中的应用
32 0
|
4月前
|
机器学习/深度学习 人工智能 算法
人工智能在机器人编程与自动化控制中的应用与发展
人工智能在机器人编程与自动化控制中的应用与发展
131 0
|
4月前
|
机器学习/深度学习 传感器 算法
强化学习(RL)在机器人领域的应用
强化学习(RL)在机器人领域的应用
54 0
|
5月前
|
传感器 人工智能 监控
智能耕耘机器人
智能耕耘机器人
111 3
|
2月前
|
人工智能 算法 机器人
机器人版的斯坦福小镇来了,专为具身智能研究打造
【8月更文挑战第12天】《GRUtopia:城市级具身智能仿真平台》新论文发布,介绍了一款由上海AI实验室主导的大规模3D城市模拟环境——GRUtopia。此平台包含十万级互动场景与大型语言模型驱动的NPC系统,旨在解决具身智能研究中的数据稀缺问题并提供全面的评估工具,为机器人技术的进步搭建重要桥梁。https://arxiv.org/pdf/2407.10943
182 60

热门文章

最新文章