ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。
本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有14篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。
会议在即,我们将定期推出前沿技术论文的深度解读系列文章,以期与产学研界切磋交流。本文主要介绍在实时通讯领域,基于统一深度模型的RTC3A算法。
3A算法,包括回声消除(Acoustic Echo Cancellation, AEC),噪声抑制(Noise Suppression, NS)和自动增益控制(Automatic Gain Control, AGC),是实时通讯(Real-Time Communications, RTC)必不可少的三个算法模块。
如上图所示,其中AEC用于消除远端信号的回声,一般包括线性回声消除和回声残余抑制两部分;NS用于抑制环境中的噪声;AGC用于调整语音信号幅度到合适的听觉水平。三个模块共同配合,才能提供清晰舒适的音频通话体验。
近年来,深度学习在三项任务中都取得了显著进展。在每一项任务中,都可以设计一个模型来分别处理回声、噪声和进行语音活动检测(Voice Activity Detection, VAD)。
实际通话场景中,回声和噪声是可能同时存在,然而单独针对噪声训练的模型无法有效处理回声残余,同时单独针对回声残余训练的模型会不可避免地抑制噪声,因此有必要对三个模型进行统一考虑和优化。通过端到端式的设计,统一的模型更加简洁,并有可能进一步提高整体性能。
|| 研究发现
我们总结参加 AEC-Challenge 的经验[1],提出了如图 2 所示的 NN3A 统一模型架构和训练方法[2]。这里保留了经典信号处理的线性滤波(Linear filter)部分,通过预先消除一定的线性回声,为模型提供更高信回比的输入。统一模型的输入是远端时延信号X、麦克风录音信号D、线性滤波的回声估计Y和近端估计信号E之内的最优组合,输出是近端目标语音的时频掩蔽,模型同时输出目标语音的VAD信息用于后续增益调整。
研究发现,线性滤波首先会直接影响最终的整体性能,为了降低近端语音损伤,我们采用了“双讲友好”的盲源分离回声消除算法[1]。同时,我们特别设计了基于目标语音存在概率的时频加权损失函数,进一步提升了模型的回声残余和噪声抑制能力,以满足通话场景“零回声泄露”的实际需求。
|| 实验结果
如Table 1 所示,级联的回声和噪声模型会对信号进行重复处理,非目标抑制量 ERLE 38.28dB 高于联合模型(35.11dB),但是双讲语音质量PESQ有所下降。加入VAD目标后,多任务训练方式提高了NN3A的整体指标。同时,调整损失函数的加权系数可以平衡模型的非目标抑制量与语音失真,在少量降低双讲语音质量的代价下显著提高了单讲场景下的PESQ和ERLE指标,一个具体的音频示例如图3所示。
|| Future Work
目前结合线性滤波的混合算法方案性能依然优于全深度模型的方案。未来的工作包括进一步提升模型在复杂场景,例如低信回比、音乐场景等建模和处理能力,探索完全采用深度模型的算法在通话场景的落地实现。
参考资料:
[1] Z. Wang, Y. Na, Z. Liu, B. Tian, and Q. Fu, “Weighted recursiveleast square filter and neural network based residual echosuppression for the AEC-Challenge,” in ICASSP. IEEE, 2021,pp. 141–145.
论文下载地址:https://arxiv.org/abs/2102.08551
[2] Z. Wang, Y. Na, B. Tian, and Q. Fu, “NN3A: Neural networksupported acoustic echo cancellation, noise suppression andautomatic gain control for real-time communications,” to appear in ICASSP 2022. 论文下载地址:https://arxiv.org/abs/2110.08437