开源上新｜通义语音处理技术ClearerVoice-Studio-阿里云开发者社区

开源上新｜通义语音处理技术ClearerVoice-Studio

2024-12-26 167 发布于海南

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 开源上新｜通义语音处理技术ClearerVoice-Studio

随着语音技术的普及，语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题，常常使语音质量和可懂度大打折扣。

无论是录制清晰语音却因周围环境嘈杂充满噪声，还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音，这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中，如何有效分离目标说话人的语音信号，避免其他干扰，一直是语音处理领域的难点和热点。

通义实验室开源 ClearerVoice-Studio，一个集成语音增强、语音分离和音视频说话人提取等功能的语音处理框架。通过融合复数域深度学习算法，我们大幅提升了语音降噪和分离的性能，能够最大限度地消除背景噪声并保留语音清晰度，同时保持语音失真最小化。

💡 ClearerVoice-Studio 能为您做什么？

高效去除背景噪声，将嘈杂语音处理成高质量、清晰的语音信号；
从复杂音频混合中轻松分离目标语音，满足多种语音处理需求；
使用音视频结合的模型精确提取目标说话人的语音信号；
使用模型训练和调优工具进行模型效果打磨；

📂 代码仓库

GitHub 仓库：ClearerVoice-Studio （https://github.com/modelscope/ClearerVoice-Studio）
在线体验 Demo：Hugging Face Space （https://huggingface.co/spaces/alibabasglab/ClearVoice）

‍▎核心模型与算法亮点

FRCRN 模型：在 2022 年 IEEE/INTER Speech DNS Challenge 中取得整体第二的优异成绩，展现出卓越的语音增强能力。

MossFormer 系列模型：在语音分离任务中表现卓越，首次超越 SepFormer，获得业内广泛认可。目前，MossFormer 框架已扩展至语音增强和目标说话人提取任务。基于 MossFormer2 的 48kHz 语音增强模型在有效抑制噪声的同时，大幅降低了语音失真。

我们致力于将这些先进模型和算法通过 ClearerVoice-Studio 平台开放给更多用户，希望为开发者、研究者和企业提供强大的语音处理工具，助力创新应用落地。

‍▎效果体验

点击以下链接即可轻松上手🔗：https://huggingface.co/spaces/alibabasglab/ClearVoice

如何操作：

准备一段包含噪声的语音文件；
上传至指定页面；
一键处理后，您可以在线试听，也可以下载处理结果到本地。即刻获得清晰的音质、和卓越的降噪效果。

更多模型评测结果及技术细节，请访问 ClearerVoice-Studio 页面了解详情。

开源上新｜通义语音处理技术ClearerVoice-Studio

💡 ClearerVoice-Studio 能为您做什么？

📂 代码仓库

‍▎核心模型与算法亮点

‍▎效果体验

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

开源上新｜通义语音处理技术ClearerVoice-Studio

💡 ClearerVoice-Studio 能为您做什么？

📂 代码仓库

‍▎核心模型与算法亮点

‍▎效果体验

热门文章

最新文章

相关课程

相关电子书

相关实验场景