Orpheus TTS:开源语音克隆王炸!200ms延迟+情感操控,Llama3引爆音效革命

简介: Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音系统,支持自然语音生成、零样本语音克隆和情感引导,适用于有声读物、虚拟助手、游戏等多种场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🗣️ "声优界连夜报警!这个开源TTS能克隆任何人声,200ms延迟碾压Siri"

大家好,我是蚝油菜花。当同行还在为AI语音的机械感头疼时,这个开源模型已经让「声纹诈骗」走进创作领域!

你是否被这些AI魔音逼到崩溃:

  • 🤖 语音助手说话像没感情的报丧女妖
  • 🎙️ 想克隆自己声音要先录300句话
  • ⏳ 实时变声延迟高到像在看PPT...

今天解密的 Orpheus TTS ,正在重写语音合成法则!这个基于Llama-3b架构的开源核弹,用三大黑科技炸穿次元壁:

  • 5秒克隆术:零样本复刻任何人声,连呼吸停顿都完美还原
  • 情感调色盘:输入[悲伤][激昂]标签直接操控语音情绪
  • 闪电嘴炮:200ms延迟实现实时变声,直播连麦毫无压力

已有团队用它批量生产虚拟偶像声库,文末附《声优失业警告:AI变声调教指南》——你的声带准备好迎接赛博进化了吗?

🚀 快速阅读

Orpheus TTS 是一个基于 Llama-3b 架构的开源文本到语音系统。

  1. 核心功能:支持自然语音生成、零样本语音克隆、情感引导和低延迟流式处理。
  2. 技术原理:基于大规模数据训练、非流式分词器和 SNAC 解码器,实现高效语音合成。

Orpheus TTS 是什么

Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音(TTS)系统。它能够生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练即可模仿特定语音。Orpheus TTS 的延迟低至约 200 毫秒,适合实时应用。

Orpheus TTS 提供多种预训练和微调模型,用户可以通过少量数据进行定制化训练,满足不同场景的语音合成需求。无论是生成有声读物、虚拟助手语音,还是为游戏角色定制声音,Orpheus TTS 都能提供高效的解决方案。

Orpheus TTS 的主要功能

  • 接近人类水平的语音:提供自然的语调、情感和节奏。
  • 零样本语音克隆:无需预训练即可克隆特定语音。
  • 情感和语调引导:通过简单标签控制语音的情感和语调特征。
  • 低延迟:实时应用的流式延迟约为 200 毫秒,输入流式处理可将延迟降低到约 100 毫秒。
  • 支持多种语音风格:提供多种预设的语音风格(如“tara”、“leah”等),用户可根据需要选择不同的语音角色进行合成。

Orpheus TTS 的技术原理

Orpheus TTS-architecture

  • 基于 Llama 架构:Llama-3b 作为基础模型架构,结合强大的语言理解和生成能力,在语音合成中更好地处理自然语言的复杂性。
  • 大规模数据训练:模型在超过 10 万小时的英语语音数据和数十亿文本标记上进行预训练,基于大量的语音和文本数据学习语言的韵律、语调和情感表达。
  • 非流式分词器和 SNAC 解码器:使用非流式(CNN 基础)分词器和 SNAC 解码器,基于改进的解码器实现无间断的流式语音合成,避免传统方法中可能出现的音频“爆音”问题。
  • 实时流式推理:基于高效的 vLLM(非常规语言模型)实现,在 GPU 上快速生成语音,支持实时输出和输入流式处理,满足低延迟的实时应用需求。
  • 情感和语调引导:模型在训练数据中引入情感标签和文本-语音对,学习不同情感状态下的语音特征,支持用户通过标签控制语音的情感和语调。

如何运行 Orpheus TTS

1. 简单设置(Colab)

2. 流式推理示例

2.1. 克隆仓库:

git clone https://github.com/canopyai/Orpheus-TTS.git

2.2. 安装依赖:

cd Orpheus-TTS && pip install orpheus-speech

2.3. 运行示例代码:

from orpheus_tts import OrpheusModel
import wave
import time

model = OrpheusModel(model_name ="canopylabs/orpheus-tts-0.1-finetune-prod")
prompt = '''Man, the way social media has, um, completely changed how we interact is just wild, right? Like, we're all connected 24/7 but somehow people feel more alone than ever. And don't even get me started on how it's messing with kids' self-esteem and mental health and whatnot.'''

start_time = time.monotonic()
syn_tokens = model.generate_speech(
  prompt=prompt,
  voice="tara",
  )

with wave.open("output.wav", "wb") as wf:
  wf.setnchannels(1)
  wf.setsampwidth(2)
  wf.setframerate(24000)

  total_frames = 0
  chunk_counter = 0
  for audio_chunk in syn_tokens: # output streaming
     chunk_counter += 1
     frame_count = len(audio_chunk) // (wf.getsampwidth() * wf.getnchannels())
     total_frames += frame_count
     wf.writeframes(audio_chunk)
  duration = total_frames / wf.getframerate()

  end_time = time.monotonic()
  print(f"It took {end_time - start_time} seconds to generate {duration:.2f} seconds of audio")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
27天前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
171 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
10天前
|
人工智能 自然语言处理 搜索推荐
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型,具备多语言交流、方言理解、角色扮演和情感互动等能力,通过创新技术实现端到端语音对话和实时音色克隆。
96 14
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
|
1月前
|
机器学习/深度学习 人工智能 Rust
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
MoshiVis 是 Kyutai 推出的开源多模态语音模型,结合视觉与语音输入,支持实时交互,适用于无障碍应用、智能家居控制等多个场景。
117 28
MoshiVis:语音视觉实时交互开源!7B模型秒懂图像,无障碍革命来袭
|
1月前
|
人工智能 物联网 UED
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。
103 13
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
|
1月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
112 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
|
1月前
|
人工智能 安全 语音技术
驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!
3月14日,创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。这意味着,我们每个人都可以0成本拥有一个真正的AI伴侣了,甚至可以自己动手搭建、测试和改进模型。
142 1
|
4月前
|
人工智能 数据挖掘 大数据
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
195 16
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
|
4月前
|
人工智能 编解码 搜索推荐
国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类
MaskGCT是一种由国内团队开发的新型非自回归文本到语音合成模型,采用两阶段模型设计和掩码预测学习范式,无需显式对齐信息及音素级别持续时间预测,能高效生成高质量语音,达到近似人类水平。其开源发布标志着国产语音大模型技术的重大突破,具有广泛的应用前景和重要的科研价值。
349 13
|
6月前
|
自然语言处理 语音技术
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
|
8月前
|
人工智能 文字识别 算法
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
122 4

热门文章

最新文章

下一篇
oss创建bucket