ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。
本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。
会议在即,我们将定期推出前沿技术论文的深度解读系列文章,以期与产学研界切磋交流。本文主要介绍语音增强和关键词检测联合优化技术,及其在扫地机器人项目中的实践效果。/本文作者/纳跃跃、王子腾、王亮、付强
在AIoT时代,终端设备包括智能家居/家电、智能车机和可穿戴设备等人机交互场景中,语音交互的渗透率越来越高。作为语音交互链路的前级模块,语音唤醒功能的核心技术是关键词检测(Keyword Spotting ,KWS), 其性能直接关系到产品的用户体验和人机交互效率。
对于远讲语音交互任务来说,由于目标声源距离拾音设备较远,所以原始音频信号容易受到设备回声、人声/非人声干扰、环境噪声、房间混响等不利声学因素影响,导致原始信号的信噪比和语音可懂度较低,不利于关键词的检出。所以关键词检测一般需要和语音增强(Speech Enhancement, SE)技术配合使用。语音增强,在语音交互领域或称前端信号处理和声学前端等,泛指一系列的信号处理和机器学习技术,例如回声消除、混响抑制、盲源分离、波束形成等,用于应对某一类或某几类不利声学因素的影响,提升输出信号的信噪比(包括信干比、信回比等),便于后续模块,例如关键词检测和语音识别获得更好的性能表现。在面向远场语音交互的语音前端信号处理技术中,我们完整构建了以盲源分离理论为核心的统一框架:将声源分离、混响抑制和回声消除统一在盲源分离理论框架下,统一了目标函数和优化方法[1-3]。这一技术路线的出发点是针对消费类电子设备高性能、低成本和低功耗的需求特点,其性能较各模块独立优化进一步提高。本文介绍的语音增强和关键词检测联合优化技术,是进一步地完善声学语音一体化理念的实践,目的是面向嵌入式应用,产出更高性价比的端侧语音AI技术。作为业务实践,本技术在扫地机器人项目中取得了较好的实用效果,相关工作也发表到了ICASSP2022会议上[4]。
在文献[5]中,作者用语音增强+关键词检测的系统和人类的听觉系统进行了对比,如图1所示:基于信号处理的语音增强模块就好比于人的耳朵、耳蜗等感知器官,用于接收外界声音,并对音频信号进行加工,从中提取底层特征;而关键词检测模块则类比于人的大脑,对底层特征进行深度处理,从而对环境作出理解认知,并将决策信息反馈回感知器官,以实现对外界信息更好的感知。
图1 联合推理框架与人类听觉系统的类比[5]
从人类听觉系统的工作循环中可以看出,除了从感知器官向大脑的自底向上的信息传递之外,还存在从大脑向感知器官自上而下的控制反馈。本文中的系统框架也借鉴了这种反馈机制,使得两个模块之间能够更紧密的进行配合,实现更高效的联合语音增强和关键词检测。
#01 多通道关键词检测
在我们以往的系统中,关键词检测模型为单路模型,这种架构在单通道应用中是足够胜任的。但是在某些应用中,语音增强前端输出的是多通道的增强后的信号,例如基于盲源分离的前端能输出多路目标语音、干扰语音、干扰噪声分离后的信号;基于multi-look beamforming [6]的前端能输出多个预定义方位的增强信号。在这类多路输出的系统中,以往的方式是在每路前端输出后面都接一个单路的关键词检测模块,任何一路模块中检测到关键词即算唤醒。之后通过事件融合和通道选择模块统一上报唤醒事件并选择上云音频通道。
该系统架构如图2所示:
图2 单通道关键词检测模块组合成多通道应用
这种组合而成的系统虽然暂时满足了多通道的应用需求,但其中仍然存在一些缺点:
第一是虚警问题,由于多路信号中虚警发生的概率可以近似认为是相互独立的,所以每增加一个通道,虚警就比单通道的关键词检测近似增加一倍;
第二是计算量问题,每增加一个通道,关键词检测的计算量也随之增加一倍;
第三是增加了系统的复杂性,由于各路关键词检测上报事件的机制也是相互独立的,所以经常会发生信噪比高的通道后唤醒的情况,所以需要复杂的缓存和等待逻辑来对事件和数据进行同步。
为了弥补上述不足,我们开发了如下图3所示的多通道关键词检测信息融合和通道选择机制。首先,关键词检测模型由若干层FSMN((Deep) Feedforward Sequential Memory Networks [7])单元级联而成,FSMN网络结构具有性能优越、实现简单、训练速度快等优点。为了实现多通道信息融合,我们利用注意机制[6]对多通道音频特征进行加权融合,将原本多路关键词检测任务简化为单路检测。同时,注意机制的加权结果又能揭示最佳通道的选择结果。此种架构同时解决了上述虚警、计算量、同步性的缺点,进一步提升了整体性能。
图3 多通道关键词检测信息融合和通道选择机制
#02 多通道神经网络推理框架
传统神经网络推理框架一般为单通道的形式,其推理过程如公式(1)所示,其中 x 和 y 分别为网络的输入和输出向量,f(•) 为激活函数,W 和 b 分别为网络的权值和偏置。如果是存在记忆单元的网络,例如 CNN、FSMN 等,则还存在相应的单通道记忆结构。
y=f(Wx+b)
如果是多通道的推理需求,则可以用多个单通道的推理框架来完成,例如图2中的系统。但是,多个单通道的推理框架不利于实现通道间的协作,例如图3中的系统要求在多个通道间做加权融合,将多通道信息融合为单通道后再完成后续的推理。
为了方便多通道推理需求,我们实现了多通道神经网络推理框架,其一般形式如公式(2)所示。对比于公式(1)中的单通道推理框架,公式(2)中的多通道推理过程相当于各个通道的网络参数相同,但数据不同。
y1 = f(Wx1+b)
y2 = f(Wx2+b)
┇
yN = f(WxN+b)
与多个单通道推理组合而成的系统相比,公式(2)中的推理框架除了天然就支持多通道数据的推理之外,还更容易实现类似公式(3)中的多通道协同操作,为多通道关键词检测的实现奠定了基础。
y= f(x1, ..., xN)
#03 自适应HMM解码器
关键词检测,以及离线命令词模块大多采用“声学模型+解码器”的架构,声学模型以音频特征为输入,并输出各个发音单元的观测概率;解码器负责对观测概率进行平滑,并从中定位出特定组合顺序的关键词。HMM(Hidden Markov Model)常用于构造解码器。在传统的HMM解码器中,HMM的各种参数通过离线训练得到,在应用中固定不动。所以其特性反映的是在某个离线数据集上的平均性能。
但是在实际应用中,声学环境往往是变化的,所以HMM解码器仅凭平均性能下的单一参数不足以适应不同场景下的声学环境。针对这个问题,我们研发了自适应的HMM[8]解码器,使得解码器参数能在极大似然估计的理论框架下随输入信号自适应更新,达到了在不同场景中自适应调节,从而进一步提升关键词检测性能的目的。另外,根据关键词和离线命令词的应用特点,并不是所有发音单元都可以相互转移的。例如,“天猫精灵”关键词中,可以从“猫”转移到“精”,但是并不能从“精”转移到“猫”。针对发音单元稀疏性的特点,我们采用了稀疏HMM的数据结构,进一步降低了解码过程的计算量。
#04 数据模拟与模型训练
在以往的系统中,关键词检测模型往往采用单通道、短语音的训练方式。这种训练方式虽然实现简单,但不易与前级的语音增强模块做到完全匹配(输入通道数不同,语音增强算法不同),在一定程度上造成了性能损失。
要在训练阶段实现完全的数据匹配,首先需要多通道、长音频数据模拟功能的支持。这样才能使用和实际处理中相同的语音增强前端来处理多通道数据,并且长音频才能保证自适应信号处理算法有足够的数据收敛,达到正常的语音增强性能。
本文中用于关键词检测模型训练的数据模拟框架如图4所示。除了大批量模拟多通道、长音频的功能之外,该框架还支持了安静、点声源干扰、回声、散射噪声场景的模拟,以及这些场景的各种组合。在数据模拟的基础上,我们还形成了从音源到特征的工具链建设,使得训练阶段实现完全的数据匹配成为可能。
图4 数据模拟系统框架
#05 在扫地机器人项目中的应用
扫地机器人作为一种特殊品类的家用电器,其使用场景中除了设备回声、人声干扰、环境噪声、房间混响等不利声学因素影响之外,机器人自噪声(ego-noise)的影响不可忽视,自噪声给语音增强和关键词检测任务带来了更加严峻的挑战。主要的难点有以下几方面:第一,由于噪声源距离拾音设备较近,所以信号的信噪比极低(-10至-15dB);第二,扫地机器人自噪声是一种复合噪声,其成分复杂多样,例如来自于机器人上的多个电动机、扫地和/或拖地刷、机器人的轮子、吸尘器等部件产生的噪声。该复合噪声中既包含方向性较为明显的点声源干扰成分,例如电动机噪声,又包含方向性较为模糊的散射噪声成分,例如吸尘器风噪。并且相对于语音干扰来说,扫地机器人自噪声是非稀疏的,不具有明显的谐波结构;第三,扫地机器人工作过程中,其位置是相对于用户实时变化的。实时变化的语音信道将导致语音信号的统计信息难以被估计,从而增加了信号处理算法的难度。为了应对这些困难,我们采用了如图5所示的实现架构。其中降噪方法使用的是multi-look MVDR波束形成[6],由于目标说话人方位未知,并且会发生移动,所以预先定义了若干方位来进行语音增强,避免了对目标统计量的估计。后续的关键词检测模块接收增强后的多通道音频特征,并预测各个发音单元的存在概率。同时,关键词缺失概率可以反馈回语音增强算法中,用于指导噪声协方差矩阵的估计,从而实现了语音增强和关键词检测的联合迭代优化。
图5 扫地机器人中的语音增强与关键词检测联合优化技术
在业务落地方面,天猫精灵与达摩院语音的实验室合作在科沃斯旗舰新品N9+上落地了以上技术,产品在2021年6.18上市,成为行业首款克服极低信噪比设备自噪的扫地机。随着技术不断升级,并在2022年1月召开了扫地机行业大会,发布了升级版的标准化高抗噪模组,正式推动了行业标配。
|| 总结
在我们以往的项目中,语音增强和关键词检测为两个相互独立的模块,两个模块之间级联工作,数据前向传递。由于两个模块的目标函数和优化方法不同,每个模块各自最优并不能使得整体系统性能达到最优。为了进一步提升整体系统性能,实现在训练阶段和推理阶段的语音增强和关键词检测联合优化,我们研发了若干相关技术,包括多通道关键词检测模型,多通道神经网络推理框架,自适应HMM解码器,相应的长音频数据模拟工具和训练工具,以及在推理阶段实现关键词检测到语音增强的信息反馈。这些技术都集成到了我们研发的端侧AI工具包中,在相关的项目应用中取得了较好的效果。
参考文献
[1] Na, Yueyue, et al. "Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation." Interspeech, 2021.
https://github.com/nay0648/unified2021
[2] Wang, Ziteng, et al. "Weighted recursive least square filter and neural network based residual echo suppression for the aec-challenge." ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.
[3] Ziteng Wang, et al. "A Semi-blind Source Separation Approach for Speech Dereverberation." INTERSPEECH. 2020.
[4] Yueyue Na, Ziteng Wang, Liang Wang, Qiang Fu. "Joint EGO-noise suppression and keyword spotting on sweeping robots". ICASSP 2022.
https://github.com/nay0648/ego2022
[5] Huang, Yiteng, et al. "Supervised noise reduction for multichannel keyword spotting." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
[6] Ji, Xuan, et al. "Integration of multi-look beamformers for multi-channel keyword spotting." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[7] Zhang, Shiliang, et al. "Feedforward sequential memory networks: A new structure to learn long-term dependency." arXiv preprint arXiv:1512.08301 (2015).
[8] Ying, Dongwen, and Yonghong Yan. "Noise estimation using a constrained sequential hidden Markov model in the log-spectral domain." IEEE transactions on audio, speech, and language processing 21.6 (2013): 1145-1157.