![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1652350/20250216/357ddfcd9ae548a9a552a720a1373b88.png?x-oss-process=image/resize,h_160,m_lfit)
Zonos:油管博主集体转粉!开源TTS神器Zonos爆火:克隆你的声音说5国语言,还能调喜怒哀乐
Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型,支持语音克隆、情感控制和多种语言,适用于有声读物、虚拟助手等场景。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1652343/20250216/46cbc1f37414462a983f19be1d27b7ea.png?x-oss-process=image/resize,h_160,m_lfit)
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1651745/20250210/c5ce7b3f29c54b26967636da536cccea.png?x-oss-process=image/resize,h_160,m_lfit)
Hibiki:实时语音翻译模型打破语言交流障碍!支持将语音实时翻译成其他语言的语音或文本
Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型,能够将一种语言的语音实时翻译成另一种语言的语音或文本,支持高保真度和低延迟。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1651742/20250210/a4d1ed5a4878481582a0d32bd132ae1a.png?x-oss-process=image/resize,h_160,m_lfit)
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1650797/20250201/cfd78510a4a14c9aa18857ce8f2200a5.png?x-oss-process=image/resize,h_160,m_lfit)
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1650139/20250121/846dd3c96aee4b0d8f72f38aef5de8ce.png?x-oss-process=image/resize,h_160,m_lfit)
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1650131/20250121/467f777a6eb94655a5ff43d627bbc996.png?x-oss-process=image/resize,h_160,m_lfit)
Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格
Kokoro-TTS 是一款轻量级文本转语音模型,支持多语言和多语音风格生成,具备实时处理能力和低资源占用,适用于多种应用场景。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1649816/20250118/24eb6126e4314aa8ba45e0f7cb9a2961.png?x-oss-process=image/resize,h_160,m_lfit)
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1649563/20250116/4a0609b7f9dd4c23b49408f192efaa95.png?x-oss-process=image/resize,h_160,m_lfit)
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1647867/20250102/bcb5a3f3126a42f6b32825a02f0978e7.png?x-oss-process=image/resize,h_160,m_lfit)
TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换
TangoFlux 是由英伟达与新加坡科技设计大学联合开发的文本到音频生成模型,能够在3.7秒内生成30秒的高质量音频,支持文本到音频的直接转换和用户偏好优化。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1646505/20241223/22ce8509916b429686772c1b5f8ab231.png?x-oss-process=image/resize,h_160,m_lfit)
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1645550/20241216/9b475c02fe29429bbf0f0ace26b16b3f.png?x-oss-process=image/resize,h_160,m_lfit)
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1645553/20241216/9a8c519706f445c49090829889f89472.png?x-oss-process=image/resize,h_160,m_lfit)
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1645169/20241212/3759e1b29cbf4f0ca049dee33ff4100b.png?x-oss-process=image/resize,h_160,m_lfit)
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1644665/20241209/a1f3e525508a473a8e71731da08648ea.png?x-oss-process=image/resize,h_160,m_lfit)
Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言
Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1644520/20241208/a73dde6e79534fe28b9e78232c193e49.png?x-oss-process=image/resize,h_160,m_lfit)
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1644518/20241208/b6a56a4cca8e43e1a1c4bd1a0f5ec810.png?x-oss-process=image/resize,h_160,m_lfit)
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
![](https://ucc.alicdn.com/y4hwontyfrwnu/developer-article1643399/20241202/bc679728012c4a25a0ff39da4b04afec.png?x-oss-process=image/resize,h_160,m_lfit)
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
kws_util 下载不了
用户在树莓派上安装了一个语音唤醒环境,并使用了CTC语音唤醒模型“小云小云”。但在执行推理时遇到了错误。已尝试安装[kws_tuil],安装不成功,更换镜像后仍然安装失败,目前无法解决此问题。
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
同一个语音为什么识别结果还不一致的,有大佬知道原因吗(Paraformer语音识别-中文-通用-16k-离线-large-热词版)
模型speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404,在线体验同一个语音识别结果不一致(https://modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary)
ModelScope官方镜像,CPU环境镜像(python3.8)pull不存在
在pullModelScope官方镜像时,一直pull失败,发现官方镜像应该没有推送,Python3.7的是有的