大规模、动态语音增强/分离新基准!清华发布移动音源仿真平台SonicSim,含950+小时训练数据

简介: 清华大学研究团队推出SonicSim,一款专为语音增强和分离技术设计的移动音源仿真平台。它基于Habitat-sim开发,能生成高度可定制的合成数据,涵盖多个层次的调整选项,有效解决了现有数据集在数量和多样性上的不足。SonicSim不仅提升了模型训练和评估的真实性和全面性,还通过构建SonicSet基准数据集,进一步推动了该领域的研究进展。

在语音处理领域,尤其是语音增强和分离技术的研究中,面对移动音源的复杂场景,如何获取充足且真实的数据一直是个难题。清华大学的研究团队近日发布了一款名为SonicSim的移动音源仿真平台,旨在解决这一问题,为语音处理技术的发展提供了新的基准。

在语音增强和分离模型的系统性评估中,通常需要大量包含各种场景的数据。然而,现实世界的数据集往往无法满足模型训练和评估的需求,因为它们在数量和多样性上都存在不足。虽然合成数据集可以提供更多的数据,但其声学仿真往往缺乏真实性,难以准确反映现实世界的情况。因此,无论是真实世界的数据集还是合成数据集,都无法完全满足实际应用的需求。

为了解决上述问题,清华大学的研究团队开发了SonicSim,这是一款基于Habitat-sim的合成工具包,专门用于生成高度可定制的移动音源数据。SonicSim支持多层次的调整,包括场景级别、麦克风级别和音源级别,从而能够生成更加多样化的合成数据。

利用SonicSim,研究团队构建了一个名为SonicSet的移动音源基准数据集。该数据集包含了来自Librispeech、Freesound Dataset 50k(FSD50K)和Free Music Archive(FMA)的语音和音频数据,以及来自Matterport3D的90个场景。通过这些数据,SonicSet能够全面评估语音增强和分离模型的性能。

为了验证合成数据与真实世界数据之间的差异,研究团队从SonicSet的验证集中随机选择了5小时的无混响原始数据,用于记录一个真实世界的语音分离数据集。然后,他们将这个真实世界的数据集与相应的合成数据集进行了比较。此外,他们还利用真实世界的语音增强数据集RealMAN,验证了其他合成数据集与SonicSet在语音增强方面的声学差异。结果表明,SonicSim生成的合成数据能够有效地泛化到真实世界的场景中。

SonicSim的发布无疑为语音增强和分离技术的研究提供了新的动力。它不仅解决了数据获取的难题,还通过高度可定制的合成数据,为模型的训练和评估提供了更加全面和真实的环境。然而,我们也需要认识到,合成数据与真实世界数据之间仍然存在一定的差距。尽管SonicSim在泛化能力上表现出色,但在某些特定场景下,真实世界的数据可能仍然具有不可替代的优势。

此外,SonicSim的多层次调整功能虽然强大,但也对使用者提出了更高的要求。如何根据具体需求合理地调整参数,以生成最合适的合成数据,将是使用者需要面对的挑战。

论文地址:https://arxiv.org/abs/2410.01481

目录
相关文章
|
网络协议
ASCII编码
ASCII编码
820 1
已解决 BrokenPipeError: [Errno 32] Broken pipe
已解决 BrokenPipeError: [Errno 32] Broken pipe
9032 0
已解决 BrokenPipeError: [Errno 32] Broken pipe
|
机器学习/深度学习 传感器 算法
【特征提取】语音信号端点检测+倒谱法+自相关法特征提取附Matlab源码
【特征提取】语音信号端点检测+倒谱法+自相关法特征提取附Matlab源码
|
5月前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
731 63
语音识别(ASR)基础介绍第三篇——经典做法及术语概念
上一章介绍了万金油特征MFCC,相当于数据的输入已经确定了。 本章尽可能的介绍经典asr做法。其中涉及到的各种概念和思考,了解了之后,和相关专业的人交流,大概就不再迷茫了:D 传统方法也可以按 声学模型 和 语言学模型 的方式来划分。 声学模型主要的职责是,把一段音频处理成类似拼音的形式, 然后交给语言模型来猜: 能够发这些音的单词,怎么组合起来更常见一些。然后找到最可能的组合,便是asr的结
7421 0
|
10月前
|
开发工具 git iOS开发
阿里同学都在用的开发环境和工具
本文主要介绍后端开发同学常用的工具以及开发环境搭建。
|
人工智能 小程序 语音技术
GLM-4-Voice,智谱开源版“Her”来了!
智谱 AI 推出并开源端到端语音模型 GLM-4-Voice!GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。
|
弹性计算
最新阿里云服务器7月租用费用价格表,ECS降价幅度跳水式!
2024年7月,阿里云服务器推出优惠价格,ECS云服务器2核2G3M带宽99元/年,2核4G5M带宽199元/年。香港30M带宽轻量服务器24元/月,4核8G服务器700元/年。此外,提供不同配置的ECS实例,如ECS经济型、u1实例等,价格从99元到327元不等,具体详情可访问阿里云服务器官方页面。
|
PyTorch 测试技术 TensorFlow
Modelscope-FunASR是一个开源的语音识别框架
【2月更文挑战第9天】Modelscope-FunASR是一个开源的语音识别框架
1353 2
|
机器学习/深度学习 达摩院 前端开发
INTERSPEECH 2022论文解读|针对多方会议场景下说话人相关语音识别的对比研究
INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。 ‍本文主要对比研究三种SA-ASR的方法,通过对说话人日志、语音分离和语音识别模块的耦合,在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验,有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。
1219 0