MossFormer2语音分离模型

简介: MossFormer2语音分离模型

MossFormer2语音分离模型在训练时使用了包括WSJ0-2Mix和Libri2Mix的干净语音混合数据,以及WHAMR、DNS Challenge 2020带噪声及混响数据。此外,魔搭社区上还开放了约30小时2人混合语音作为训练数据,这些混合语音是基于WSJ0数据集生成的。同时,还在ModelScope上提供了基于LibriSpeech数据集生成的混合音频,可以方便用户快速开始训练。最终,MossFormer2模型在WSJ0-2mix/3mix、Libri2Mix和WHAM!/WHAMR!等公开数据集上表现出优秀的性能。

目录
相关文章
|
1月前
|
编解码 文字识别 语音技术
MiniCPM-o 2.6:流式全模态,端到端,多模态端侧大模型来了!
MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B 构建,共 8B 参数,通过端到端方式训练和推理。相比 MiniCPM-V 2.6,该模型在性能上有了显著提升,并支持了实时语音对话和多模态流式交互的新功能。
|
24天前
|
人工智能 测试技术
VARGPT:将视觉理解与生成统一在一个模型中,北大推出支持混合模态输入与输出的多模态统一模型
VARGPT是北京大学推出的多模态大语言模型,专注于视觉理解和生成任务,支持混合模态输入和高质量图像生成。
95 22
|
2月前
|
存储 人工智能 文字识别
Megrez-3B-Omni:无问芯穹开源最强端侧全模态模型,支持理解图像、音频和文本三种模态数据
Megrez-3B-Omni 是无问芯穹开源的端侧全模态理解模型,支持图像、音频和文本三种模态数据的处理,具备高精度和高推理速度,适用于多种应用场景。
136 19
Megrez-3B-Omni:无问芯穹开源最强端侧全模态模型,支持理解图像、音频和文本三种模态数据
|
2月前
|
人工智能 自然语言处理 语音技术
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
Ultravox是一款端到端的多模态大模型,能够直接理解文本和人类语音,无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示,显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能,适用于智能客服、虚拟助手、语言学习等多个应用场景。
213 14
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
|
2月前
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
596 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
3月前
|
人工智能
突破视频多模态大模型瓶颈!合成数据立大功,项目已开源
针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。
99 7
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|
5月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
5月前
|
机器学习/深度学习 存储 人工智能
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
【9月更文挑战第1天】AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
|
6月前
|
数据采集 人工智能 编解码
抛弃视觉编码器,这个原生版多模态大模型也能媲美主流方法
【8月更文挑战第4天】在AI领域,多模态大模型(VLMs)融合视觉与语言处理,但现有模型多依赖视觉编码器,限制了灵活性与效率。为解决此问题,研究者开发出不依赖编码器的VLMs,提出一种高效训练方案,通过统一解码器内部桥接视觉-语言表示,并引入额外监督增强视觉识别能力。基于此,开发出EVE模型,在多个基准测试中表现出色,仅用3500万公开数据即可媲美甚至超越传统模型。尽管如此,EVE仍面临计算资源需求高及数据质量等挑战。这一突破引发了对未来VLM发展方向的讨论。[论文链接: https://arxiv.org/abs/2406.11832]
85 1

热门文章

最新文章