开发者社区> 视频云小助手> 正文

AliSSR 语音超分算法:让在线会议语音更明亮更自然

简介: 超分让在线会议语音更明亮,在线会议已成为日常工作中较为普遍的沟通交流方式,接入会议的方式也呈现多样化,比如电脑入会、手机入会又或是电话入会。
+关注继续查看

雪雅、曜辰|作者


众所周知,高采样率且高带宽的音频信号富含丰富的频率成分,能够带给人们更身临其境的听觉体验。但在线会议中,电话入会又或是因设备等原因导致原始采集带宽过低的场景中,带给人们的直观感受表现为听对方说话比较闷,严重影响会议体验。在信号处理中,语音超分技术可以用来处理这类情况,它可以最大限度地从低带宽的音频信号中重建出其高频成分,让语音信号听起来更“明亮、逼真”,从而为客户提供更出色更高音质的通话体验。

下面是一个简单的效果演示:

作者注:视频中前半部分是窄带信号,后半部分是超分后的宽带信号。


语音超分技术的早期研究多围绕传统信号处理理论展开,如源滤波器模型,通过 codebook 映射或者线性映射的方法来预测高频带频谱包络 [1, 2]。近些年随着深度学习技术在信号处理领域的应用,语音超分技术在深度学习的加持下,效果获得了明显的提升。


最开始,延续了传统信号处理框架,神经网络替换原有框架的一部分,用来预测高频带的谱包络或者幅度谱 [3, 4],相位扩展沿用传统的方法,保持计算复杂度低的优势 [1],然而相位信息对于人耳主观听感有着不可忽略的影响。


随后,受图像超分辨率算法的启发,基于端到端的神经网络模型应用到了语音超分任务 [5, 6],它直接在时域上对信号完成了预测,避免了相位问题,这些方法都是通过最小化某个损失函数(如 L2 loss) 来训练的,后来,引入了 GAN 的训练方式,结合原有的损失函数和对抗损失,达到了更好的效果 [7, 8]。


当前,我们主要针对采样率从 8KHz 提高到 16KHz 的情况(频谱带宽从 4KHz 扩展到 8KHz)。


语音超分算法:AliSSR

基于神经网络的语音超分算法近几年来取得了不错的超分效果,但其中很多算法都是双非算法(非实时非因果),同时往往涉及较大的参数量和计算量,难以在实际应用场景中部署。阿里云视频云音频技术团队基于上述实际问题,研发了两种实时因果的语音超分算法:AliSSR(e2e 版本)和 AliSSR(lightweight 版本),在拥有较少参数量和较低延时的同时,保持其高质量的语音超分效果。


1. 算法原理简介

A. AliSSR(e2e 版本):是基于端到端的 encoder-decoder 模型。该模型结合实际应用场景,充分考虑了编解码、下采样所带来的损失,并结合 GAN 相关的训练技巧,提升带宽拓展的效果;


B. AliSSR(lightweight 版本):传统信号处理与深度学习结合的算法模型。该模型简单易拓展,资源消耗较小。


音频技术团队研发的基于神经网络的语音超分算法无需额外数据传输, 可以实时流式地对窄带语音信号进行高质量地带宽拓展。


2. 算法性能

模型

模型参数量

RTF

A.AliSSR(e2e版本)

553K

0.06

B.AliSSR(lightweight版本)

40K

0.006

作者注:RTF 是基于 mac 电脑(2.6 GHz 六核 Intel Core i7)统计。


3. 应用场景

在某些低带宽的场景中 , 例如在 PSTN 场景中,往往感觉对方声音很 “闷”,这主要是由于发送端传输的语音信号采样率低,没有高频成分的语音信息。语音超分技术通过重建语音的高频成分,为客户提供更高音质、更出色的通话听觉体验。语音超分常用的使用场景如下表所示。

场景

描述

PSTN

非 volte PSTN 场景下,语音通话传输的是 4k 带宽的窄带语音信号,通话体验较差,可以采用语音超分算法,提升通话体验。

电话接入在线会议

电话接入在线会议场景中,电话与网络会存在一些不同网络协议转换,接收端采集到的信号也是 4k 窄带语音信号,通过语音超分算法可以重建高频成分,提供更出色的会议听觉体验。

蓝牙

蓝牙免通话场景中,在蓝牙描述文件为 HFP 的蓝牙设备中,其采样率为 8khz,接收端听起来的语音信号感觉很闷,给用户带来欠佳的通话体验,采用语音超分算法后,可以极大提升用户的听觉体验。


4. 超分效果显示

AliSSR 实时超分算法支持多语种、多性别。下面分别对男生英文和女生中文测试语料的超分前后效果进行展示,主观听感层面,超分之后的语音明显比窄带音频要更 “明亮”,其中 AliSSR(e2e 版本)超分后明亮度要比 AliSSR(lightweight 版本)更好。


样本1:英文

视频中的三段音频分别是:窄带语音、AliSSR 实时处理后的 e2e 版本和 lightweight 版本


样本2:中文

视频中的三段音频分别是:窄带语音、AliSSR 实时处理后的 e2e 版本和 lightweight 版本


语音超分技术在 PSTN、在线会议、老旧音频修复以及媒体生产等领域,有着较为广泛的落地场景。AliSSR 语音超分算法在神经网络的助力下,仅需极少的资源消耗,即可实时地给用户带来更“明亮、逼真”的音质体验。未来,音频技术将会继续铸造更强的超分能力,探索从窄带到全频带、从语音到音乐再到全类音频的全场景覆盖的超分技术。


阿里云视频云音频技术团队将继续探索基于深度学习 + 信号处理的的音频技术,为在线会议等场景提供更清晰更极致的音频体验。


参考文献

[1] J.Makhoul, M.Berouti, “High-frequency regen-eration in speech coding systems”, in Proceedings of ICASSP, 1979, vol. 4, pp. 428–431.
[2] B. Iser, G. Schmidt, “Neural networks versus codebooks inan application for bandwidth extension of speech signals,”  in Proc. of Interspeech, 2003
[3] Kehuang Li, Chin-Hui Lee, “A deep neural networkapproach to speech bandwidth expansion”,  in Proceedings of ICASSP, 2015, pp. 4395–4399.
[4] J. Abel, T. Fingscheidt, “Artificial  speech  band-width extension using deep neural networks for wide-band spectral envelope estimation”, IEEE Transactionson Acoustics, Speech, and Signal Processing,  vol. 26,no. 1, pp. 71–83, 2017
[5] V. Kuleshov, S.Z. Enam, and S. Ermon,  “Audio super resolution  using  neural  nets”, in Workshop of ICLR, 2017.
[6] Heming Wang, Deliang Wang, "Time-frequency loss for CNN based speech super-resolution", in Proceedings of ICASSP, 2020.
[7] Eskimez, Sefik Emre et al. “Adversarial Training for Speech Super-Resolution.” IEEE Journal of Selected Topics in Signal Processing 13 (2019): 347-358.
[8] Li, Y., Tagliasacchi, M., Rybakov, "Real-Time Speech Frequency Bandwidth Extension", ICASSP, 2021.


「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
14233 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
19078 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
28299 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
22181 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
20274 0
AliCloudDenoise 语音增强算法:助力实时会议系统进入超清音质时代
近些年,随着实时通信技术的发展,在线会议逐渐成为人们工作中不可或缺的重要办公工具,据不完全统计,线上会议中约有 75% 为纯语音会议,即无需开启摄像头和屏幕共享功能,此时会议中的语音质量和清晰度对线上会议的体验便至关重要。
624 0
250
文章
2
问答
来源圈子
更多
+ 订阅
相关文档: 云会议 智能视觉 音视频通信
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载