开源上新|通义语音处理技术ClearerVoice-Studio

简介: 开源上新|通义语音处理技术ClearerVoice-Studio

随着语音技术的普及,语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题,常常使语音质量和可懂度大打折扣。


无论是录制清晰语音却因周围环境嘈杂充满噪声,还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音,这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中,如何有效分离目标说话人的语音信号,避免其他干扰,一直是语音处理领域的难点和热点。


通义实验室开源 ClearerVoice-Studio,一个集成语音增强、语音分离和音视频说话人提取等功能的语音处理框架。通过融合复数域深度学习算法,我们大幅提升了语音降噪和分离的性能,能够最大限度地消除背景噪声并保留语音清晰度,同时保持语音失真最小化。


💡 ClearerVoice-Studio 能为您做什么?

  • 高效去除背景噪声,将嘈杂语音处理成高质量、清晰的语音信号;
  • 从复杂音频混合中轻松分离目标语音,满足多种语音处理需求;
  • 使用音视频结合的模型精确提取目标说话人的语音信号;
  • 使用模型训练和调优工具进行模型效果打磨;


📂 代码仓库


核心模型与算法亮点


  • FRCRN 模型:在 2022 年 IEEE/INTER Speech DNS Challenge 中取得整体第二的优异成绩,展现出卓越的语音增强能力。

image.png


  • MossFormer 系列模型:在语音分离任务中表现卓越,首次超越 SepFormer,获得业内广泛认可。目前,MossFormer 框架已扩展至语音增强和目标说话人提取任务。基于 MossFormer2 的 48kHz 语音增强模型在有效抑制噪声的同时,大幅降低了语音失真。

image.png


我们致力于将这些先进模型和算法通过 ClearerVoice-Studio 平台开放给更多用户,希望为开发者、研究者和企业提供强大的语音处理工具,助力创新应用落地。


效果体验



点击以下链接即可轻松上手🔗https://huggingface.co/spaces/alibabasglab/ClearVoice


如何操作:

  1. 准备一段包含噪声的语音文件;
  2. 上传至指定页面;
  3. 一键处理后,您可以在线试听,也可以下载处理结果到本地。即刻获得清晰的音质、和卓越的降噪效果。

image.png image.png

更多模型评测结果及技术细节,请访问 ClearerVoice-Studio 页面了解详情。


相关文献参考:

【1】Zhao, Shengkui and Ma, Bin and Watcharasupat, Karn N. and Gan, Woon-Seng, “FRCRN: Boosting Feature Representation Using Frequency Recurrence for Monaural Speech Enhancement”, ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).


【2】Zhao, Shengkui and Ma, Bin, “MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-head Transformer with Convolution-augmented Joint Self-Attentions”, ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).


【3】Zhao, Shengkui and Ma, Bin et al, “MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation”, ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

相关文章
|
18天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
118 2
|
1月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
338 2
|
17天前
|
监控 JavaScript Java
基于大模型技术的反欺诈知识问答系统
随着互联网与金融科技发展,网络欺诈频发,构建高效反欺诈平台成为迫切需求。本文基于Java、Vue.js、Spring Boot与MySQL技术,设计实现集欺诈识别、宣传教育、用户互动于一体的反欺诈系统,提升公众防范意识,助力企业合规与用户权益保护。
|
29天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1850 89
|
1月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
845 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
12天前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
15天前
|
机器学习/深度学习 人工智能 物联网
# 大模型优化与压缩技术:2025年的实践与突破
2025年,随着大语言模型的规模和复杂度不断提升,模型优化与压缩技术已成为AI产业落地的关键瓶颈和研究热点。根据最新统计,顶级大语言模型的参数规模已突破万亿级别,如DeepSeek-R1模型的6710亿参数规模,这带来了前所未有的计算资源需求和部署挑战。在这种背景下,如何在保持模型性能的同时,降低计算成本、减少内存占用、提升推理速度,已成为学术界和产业界共同关注的核心问题。
|
20天前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
阿里云 Qwen3 全栈 AI 模型:技术解析、开发者实操指南与 100 万企业落地案例
阿里云发布Qwen3全栈AI体系,推出Qwen3-Max、Qwen3-Next等七大模型,性能全球领先,开源生态超6亿次下载。支持百万级上下文、多模态理解,训练成本降90%,助力企业高效落地AI。覆盖制造、金融、创作等场景,提供无代码与代码级开发工具,共建超级AI云生态。
352 6

热门文章

最新文章

下一篇
oss教程