ICASSP 2022论文解读:基于统一深度模型的RTC 3A算法

简介: 3A算法,包括回声消除(Acoustic Echo Cancellation, AEC),噪声抑制(Noise Suppression, NS)和自动增益控制(Automatic Gain Control, AGC),是实时通讯(Real-Time Communications, RTC)必不可少的三个算法模块。

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。
本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有14篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

会议在即,我们将定期推出前沿技术论文的深度解读系列文章,以期与产学研界切磋交流。本文主要介绍在实时通讯领域,基于统一深度模型的RTC3A算法。


3A算法,包括回声消除(Acoustic Echo Cancellation, AEC),噪声抑制(Noise Suppression, NS)和自动增益控制(Automatic Gain Control, AGC),是实时通讯(Real-Time Communications, RTC)必不可少的三个算法模块。
图片.png
如上图所示,其中AEC用于消除远端信号的回声,一般包括线性回声消除和回声残余抑制两部分;NS用于抑制环境中的噪声;AGC用于调整语音信号幅度到合适的听觉水平。三个模块共同配合,才能提供清晰舒适的音频通话体验。


近年来,深度学习在三项任务中都取得了显著进展。在每一项任务中,都可以设计一个模型来分别处理回声、噪声和进行语音活动检测(Voice Activity Detection, VAD)。

实际通话场景中,回声和噪声是可能同时存在,然而单独针对噪声训练的模型无法有效处理回声残余,同时单独针对回声残余训练的模型会不可避免地抑制噪声,因此有必要对三个模型进行统一考虑和优化。通过端到端式的设计,统一的模型更加简洁,并有可能进一步提高整体性能。

|| 研究发现


我们总结参加 AEC-Challenge 的经验[1],提出了如图 2 所示的 NN3A 统一模型架构和训练方法[2]。这里保留了经典信号处理的线性滤波(Linear filter)部分,通过预先消除一定的线性回声,为模型提供更高信回比的输入。统一模型的输入是远端时延信号X、麦克风录音信号D、线性滤波的回声估计Y和近端估计信号E之内的最优组合,输出是近端目标语音的时频掩蔽,模型同时输出目标语音的VAD信息用于后续增益调整。

image.gif

图片.png


研究发现,线性滤波首先会直接影响最终的整体性能,为了降低近端语音损伤,我们采用了“双讲友好”的盲源分离回声消除算法[1]。同时,我们特别设计了基于目标语音存在概率的时频加权损失函数,进一步提升了模型的回声残余和噪声抑制能力,以满足通话场景“零回声泄露”的实际需求。


|| 实验结果


如Table 1 所示,级联的回声和噪声模型会对信号进行重复处理,非目标抑制量 ERLE 38.28dB 高于联合模型(35.11dB),但是双讲语音质量PESQ有所下降。加入VAD目标后,多任务训练方式提高了NN3A的整体指标。同时,调整损失函数的加权系数可以平衡模型的非目标抑制量与语音失真,在少量降低双讲语音质量的代价下显著提高了单讲场景下的PESQ和ERLE指标,一个具体的音频示例如图3所示。

图片.png


|| Future Work


目前结合线性滤波的混合算法方案性能依然优于全深度模型的方案。未来的工作包括进一步提升模型在复杂场景,例如低信回比、音乐场景等建模和处理能力,探索完全采用深度模型的算法在通话场景的落地实现。


参考资料:


[1] Z. Wang, Y. Na, Z. Liu, B. Tian, and Q. Fu, “Weighted recursiveleast square filter and neural network based residual echosuppression for the AEC-Challenge,” in ICASSP. IEEE, 2021,pp. 141–145.

论文下载地址:https://arxiv.org/abs/2102.08551

[2] Z. Wang, Y. Na, B. Tian, and Q. Fu, “NN3A: Neural networksupported acoustic echo cancellation, noise suppression andautomatic gain control for real-time communications,” to appear in ICASSP 2022. 论文下载地址:https://arxiv.org/abs/2110.08437

相关文章
|
5天前
|
算法 数据可视化 数据挖掘
算法金 | 一个强大的算法模型:t-SNE !!
**t-SNE算法简介** t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维技术,用于高维数据的可视化和结构保留。它通过保持高维数据点间的局部相似性来创建低维表示,尤其适用于揭示复杂数据集的模式。算法的关键在于使用高斯分布计算高维相似性,而用t分布计算低维相似性,并通过最小化Kullback-Leibler散度来优化低维空间的位置。t-SNE在图像、文本和生物信息学等领域有广泛应用,但计算复杂度高,不适合大规模数据。
21 6
算法金 | 一个强大的算法模型:t-SNE !!
|
10天前
|
机器学习/深度学习 存储 人工智能
算法金 | 一个强大的算法模型,GP !!
高斯过程是一种非参数机器学习方法,利用高斯分布描述数据,并通过核函数衡量相似性。它在小样本和不确定性估计上有优势,常用于回归、分类和优化。高斯过程基于函数分布,通过核函数(如线性、RBF、多项式)捕捉数据关系。与传统方法相比,它在处理不确定性和非线性问题时更具灵活性。虽然计算复杂度高、内存需求大,但通过稀疏高斯过程等方法可改善。高斯过程还可扩展到非平稳和多任务场景。本文通过代码示例展示了高斯过程在战斗胜率预测中的应用。
36 11
算法金 | 一个强大的算法模型,GP !!
|
8天前
|
机器学习/深度学习 数据采集 监控
算法金 | 选择最佳机器学习模型的 10 步指南
许多刚入门的学习者也面临着相似的挑战,特别是在项目启动初期的方向确定和结构规划上。本文意在提供一份全面指南,助你以正确的方法开展项目。 遵循本文提供的每一步至关重要(虽有少数例外)。就像不做饭或点餐就无法享用美食一样,不亲自动手构建模型,就无法实现模型部署。
34 7
算法金 | 选择最佳机器学习模型的 10 步指南
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
11天前
|
数据采集 机器学习/深度学习 人工智能
算法金 | 一个强大的算法模型,多项式回归!!
```markdown # 多项式回归简述 - 多项式回归是线性回归扩展,用于处理非线性关系。 - 通过添加高次项来拟合复杂模式,但可能引发过拟合。 - 示例中展示了如何用Python创建模拟数据,使用`PolynomialFeatures`生成多项式特征,训练线性回归模型并可视化结果。 - 优点:灵活捕捉非线性关系,易于理解。 - 缺点:易过拟合,计算复杂度高。 - 相关概念:正则化(岭回归、Lasso回归)及其他非线性模型(如支持向量回归)。 - 注意事项:选择合适阶数,避免过拟合,重视数据预处理和模型评估。 ```
22 0
算法金 | 一个强大的算法模型,多项式回归!!
|
5天前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
24 0
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
|
1天前
|
机器学习/深度学习 算法
基于鲸鱼优化的knn分类特征选择算法matlab仿真
**基于WOA的KNN特征选择算法摘要** 该研究提出了一种融合鲸鱼优化算法(WOA)与K近邻(KNN)分类器的特征选择方法,旨在提升KNN的分类精度。在MATLAB2022a中实现,WOA负责优化特征子集,通过模拟鲸鱼捕食行为的螺旋式和包围策略搜索最佳特征。KNN则用于评估特征子集的性能。算法流程包括WOA参数初始化、特征二进制编码、适应度函数定义(以分类准确率为基准)、WOA迭代搜索及最优解输出。该方法有效地结合了启发式搜索与机器学习,优化特征选择,提高分类性能。
|
2天前
|
机器学习/深度学习 算法 数据可视化
基于BP神经网络的64QAM解调算法matlab性能仿真
**算法预览图省略** MATLAB 2022A版中,运用BP神经网络进行64QAM解调。64QAM通过6比特映射至64复数符号,提高数据速率。BP网络作为非线性解调器,学习失真信号到比特的映射,对抗信道噪声和多径效应。网络在处理非线性失真和复杂情况时展现高适应性和鲁棒性。核心代码部分未显示。
|
4天前
|
机器学习/深度学习 算法 数据可视化
m基于PSO-LSTM粒子群优化长短记忆网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,应用PSO优化的LSTM模型提升了电力负荷预测效果。优化前预测波动大,优化后预测更稳定。PSO借鉴群体智能,寻找LSTM超参数(如学习率、隐藏层大小)的最优组合,以最小化误差。LSTM通过门控机制处理序列数据。代码显示了模型训练、预测及误差可视化过程。经过优化,模型性能得到改善。
21 6