MossFormer2语音分离模型

简介: MossFormer2语音分离模型

MossFormer2语音分离模型在训练时使用了包括WSJ0-2Mix和Libri2Mix的干净语音混合数据,以及WHAMR、DNS Challenge 2020带噪声及混响数据。此外,魔搭社区上还开放了约30小时2人混合语音作为训练数据,这些混合语音是基于WSJ0数据集生成的。同时,还在ModelScope上提供了基于LibriSpeech数据集生成的混合音频,可以方便用户快速开始训练。最终,MossFormer2模型在WSJ0-2mix/3mix、Libri2Mix和WHAM!/WHAMR!等公开数据集上表现出优秀的性能。

目录
相关文章
|
Web App开发 机器学习/深度学习 语音技术
在ModelScope-FunASR中,语音识别系统中的声音活动检测
在ModelScope-FunASR中,语音识别系统中的声音活动检测
1194 8
|
人工智能 算法 数据挖掘
【技术揭秘】解锁声纹技术中的说话人日志
说话人日志(speaker diarization)也叫说话人分离,它是从一个连续的多人说话的语音中切分出不同说话人的片段,并且判断出每个片段是哪个说话人的过程。借助说话人日志技术可以完成对音频数据流的结构化管理,具有广泛的应用价值,例如可以利用分离结果进行说话人自适应,以提高语音识别的准确率;可以辅助会议、电话数据进行自动转写构建说话人的音频档案;也可以利用说话人分离技术,实现语料库的自动跟踪和标注。
【技术揭秘】解锁声纹技术中的说话人日志
|
2月前
|
人工智能 API 开发工具
分享一款端侧AI部署工具Nexa SDK
2025年AI硬件爆发,但云端大模型面临成本高、隐私差、延迟大等问题。开源小模型崛起,推动边缘AI发展。Nexa SDK应运而生,提供跨平台统一推理框架,支持NPU/GPU/CPU深度适配,实现低代码、高性能、多模态模型Day-0支持,兼容OpenAI API,助力手机、PC、汽车、IoT等端侧AI快速落地,重塑智能体验。
|
机器学习/深度学习 算法 网络协议
开源上新|通义语音处理技术ClearerVoice-Studio
开源上新|通义语音处理技术ClearerVoice-Studio
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
2677 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
机器学习/深度学习 PyTorch 算法框架/工具
【五分钟会,半小时懂】人声分离Demucs
【五分钟会,半小时懂】人声分离Demucs
3684 1
|
12月前
|
机器学习/深度学习 人工智能 机器人
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
1195 6
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
|
人工智能 算法 数据挖掘
开源更新|通义3D-Speaker多说话人日志功能
开源更新|通义3D-Speaker多说话人日志功能
|
机器学习/深度学习 人工智能 算法
技术开源|FunASR升级第三代热词方案
技术开源|FunASR升级第三代热词方案
3974 62
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
3252 5