ICASSP 2022论文解读:基于统一深度模型的RTC 3A算法

简介: 3A算法,包括回声消除(Acoustic Echo Cancellation, AEC),噪声抑制(Noise Suppression, NS)和自动增益控制(Automatic Gain Control, AGC),是实时通讯(Real-Time Communications, RTC)必不可少的三个算法模块。

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。
本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有14篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

会议在即,我们将定期推出前沿技术论文的深度解读系列文章,以期与产学研界切磋交流。本文主要介绍在实时通讯领域,基于统一深度模型的RTC3A算法。


3A算法,包括回声消除(Acoustic Echo Cancellation, AEC),噪声抑制(Noise Suppression, NS)和自动增益控制(Automatic Gain Control, AGC),是实时通讯(Real-Time Communications, RTC)必不可少的三个算法模块。
图片.png
如上图所示,其中AEC用于消除远端信号的回声,一般包括线性回声消除和回声残余抑制两部分;NS用于抑制环境中的噪声;AGC用于调整语音信号幅度到合适的听觉水平。三个模块共同配合,才能提供清晰舒适的音频通话体验。


近年来,深度学习在三项任务中都取得了显著进展。在每一项任务中,都可以设计一个模型来分别处理回声、噪声和进行语音活动检测(Voice Activity Detection, VAD)。

实际通话场景中,回声和噪声是可能同时存在,然而单独针对噪声训练的模型无法有效处理回声残余,同时单独针对回声残余训练的模型会不可避免地抑制噪声,因此有必要对三个模型进行统一考虑和优化。通过端到端式的设计,统一的模型更加简洁,并有可能进一步提高整体性能。

|| 研究发现


我们总结参加 AEC-Challenge 的经验[1],提出了如图 2 所示的 NN3A 统一模型架构和训练方法[2]。这里保留了经典信号处理的线性滤波(Linear filter)部分,通过预先消除一定的线性回声,为模型提供更高信回比的输入。统一模型的输入是远端时延信号X、麦克风录音信号D、线性滤波的回声估计Y和近端估计信号E之内的最优组合,输出是近端目标语音的时频掩蔽,模型同时输出目标语音的VAD信息用于后续增益调整。

image.gif

图片.png


研究发现,线性滤波首先会直接影响最终的整体性能,为了降低近端语音损伤,我们采用了“双讲友好”的盲源分离回声消除算法[1]。同时,我们特别设计了基于目标语音存在概率的时频加权损失函数,进一步提升了模型的回声残余和噪声抑制能力,以满足通话场景“零回声泄露”的实际需求。


|| 实验结果


如Table 1 所示,级联的回声和噪声模型会对信号进行重复处理,非目标抑制量 ERLE 38.28dB 高于联合模型(35.11dB),但是双讲语音质量PESQ有所下降。加入VAD目标后,多任务训练方式提高了NN3A的整体指标。同时,调整损失函数的加权系数可以平衡模型的非目标抑制量与语音失真,在少量降低双讲语音质量的代价下显著提高了单讲场景下的PESQ和ERLE指标,一个具体的音频示例如图3所示。

图片.png


|| Future Work


目前结合线性滤波的混合算法方案性能依然优于全深度模型的方案。未来的工作包括进一步提升模型在复杂场景,例如低信回比、音乐场景等建模和处理能力,探索完全采用深度模型的算法在通话场景的落地实现。


参考资料:


[1] Z. Wang, Y. Na, Z. Liu, B. Tian, and Q. Fu, “Weighted recursiveleast square filter and neural network based residual echosuppression for the AEC-Challenge,” in ICASSP. IEEE, 2021,pp. 141–145.

论文下载地址:https://arxiv.org/abs/2102.08551

[2] Z. Wang, Y. Na, B. Tian, and Q. Fu, “NN3A: Neural networksupported acoustic echo cancellation, noise suppression andautomatic gain control for real-time communications,” to appear in ICASSP 2022. 论文下载地址:https://arxiv.org/abs/2110.08437

相关文章
|
9天前
|
算法
基于模糊PI控制算法的龙格库塔CSTR模型控制系统simulink建模与仿真
本项目基于MATLAB2022a,采用模糊PI控制算法结合龙格-库塔方法,对CSTR模型进行Simulink建模与仿真。通过模糊控制处理误差及变化率,实现精确控制。核心在于将模糊逻辑与经典数值方法融合,提升系统性能。
|
9天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
83 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
84 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 算法
青否数字人声音克隆算法升级,16个超真实直播声音模型免费送!
青否数字人的声音克隆算法全面升级,能够完美克隆真人的音调、语速、情感和呼吸。提供16种超真实的直播声音模型,支持3大AI直播类型和6大核心AIGC技术,60秒快速开播,助力商家轻松赚钱。AI讲品、互动和售卖功能强大,支持多平台直播,确保每场直播话术不重复,智能互动和真实感十足。新手小白也能轻松上手,有效规避违规风险。
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
85 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
15天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
21天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
1天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
下一篇
DataWorks