Orpheus TTS:开源语音克隆王炸!200ms延迟+情感操控,Llama3引爆音效革命

简介: Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音系统,支持自然语音生成、零样本语音克隆和情感引导,适用于有声读物、虚拟助手、游戏等多种场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🗣️ "声优界连夜报警!这个开源TTS能克隆任何人声,200ms延迟碾压Siri"

大家好,我是蚝油菜花。当同行还在为AI语音的机械感头疼时,这个开源模型已经让「声纹诈骗」走进创作领域!

你是否被这些AI魔音逼到崩溃:

  • 🤖 语音助手说话像没感情的报丧女妖
  • 🎙️ 想克隆自己声音要先录300句话
  • ⏳ 实时变声延迟高到像在看PPT...

今天解密的 Orpheus TTS ,正在重写语音合成法则!这个基于Llama-3b架构的开源核弹,用三大黑科技炸穿次元壁:

  • 5秒克隆术:零样本复刻任何人声,连呼吸停顿都完美还原
  • 情感调色盘:输入[悲伤][激昂]标签直接操控语音情绪
  • 闪电嘴炮:200ms延迟实现实时变声,直播连麦毫无压力

已有团队用它批量生产虚拟偶像声库,文末附《声优失业警告:AI变声调教指南》——你的声带准备好迎接赛博进化了吗?

🚀 快速阅读

Orpheus TTS 是一个基于 Llama-3b 架构的开源文本到语音系统。

  1. 核心功能:支持自然语音生成、零样本语音克隆、情感引导和低延迟流式处理。
  2. 技术原理:基于大规模数据训练、非流式分词器和 SNAC 解码器,实现高效语音合成。

Orpheus TTS 是什么

Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音(TTS)系统。它能够生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练即可模仿特定语音。Orpheus TTS 的延迟低至约 200 毫秒,适合实时应用。

Orpheus TTS 提供多种预训练和微调模型,用户可以通过少量数据进行定制化训练,满足不同场景的语音合成需求。无论是生成有声读物、虚拟助手语音,还是为游戏角色定制声音,Orpheus TTS 都能提供高效的解决方案。

Orpheus TTS 的主要功能

  • 接近人类水平的语音:提供自然的语调、情感和节奏。
  • 零样本语音克隆:无需预训练即可克隆特定语音。
  • 情感和语调引导:通过简单标签控制语音的情感和语调特征。
  • 低延迟:实时应用的流式延迟约为 200 毫秒,输入流式处理可将延迟降低到约 100 毫秒。
  • 支持多种语音风格:提供多种预设的语音风格(如“tara”、“leah”等),用户可根据需要选择不同的语音角色进行合成。

Orpheus TTS 的技术原理

Orpheus TTS-architecture

  • 基于 Llama 架构:Llama-3b 作为基础模型架构,结合强大的语言理解和生成能力,在语音合成中更好地处理自然语言的复杂性。
  • 大规模数据训练:模型在超过 10 万小时的英语语音数据和数十亿文本标记上进行预训练,基于大量的语音和文本数据学习语言的韵律、语调和情感表达。
  • 非流式分词器和 SNAC 解码器:使用非流式(CNN 基础)分词器和 SNAC 解码器,基于改进的解码器实现无间断的流式语音合成,避免传统方法中可能出现的音频“爆音”问题。
  • 实时流式推理:基于高效的 vLLM(非常规语言模型)实现,在 GPU 上快速生成语音,支持实时输出和输入流式处理,满足低延迟的实时应用需求。
  • 情感和语调引导:模型在训练数据中引入情感标签和文本-语音对,学习不同情感状态下的语音特征,支持用户通过标签控制语音的情感和语调。

如何运行 Orpheus TTS

1. 简单设置(Colab)

2. 流式推理示例

2.1. 克隆仓库:

git clone https://github.com/canopyai/Orpheus-TTS.git
AI 代码解读

2.2. 安装依赖:

cd Orpheus-TTS && pip install orpheus-speech
AI 代码解读

2.3. 运行示例代码:

from orpheus_tts import OrpheusModel
import wave
import time

model = OrpheusModel(model_name ="canopylabs/orpheus-tts-0.1-finetune-prod")
prompt = '''Man, the way social media has, um, completely changed how we interact is just wild, right? Like, we're all connected 24/7 but somehow people feel more alone than ever. And don't even get me started on how it's messing with kids' self-esteem and mental health and whatnot.'''

start_time = time.monotonic()
syn_tokens = model.generate_speech(
  prompt=prompt,
  voice="tara",
  )

with wave.open("output.wav", "wb") as wf:
  wf.setnchannels(1)
  wf.setsampwidth(2)
  wf.setframerate(24000)

  total_frames = 0
  chunk_counter = 0
  for audio_chunk in syn_tokens: # output streaming
     chunk_counter += 1
     frame_count = len(audio_chunk) // (wf.getsampwidth() * wf.getnchannels())
     total_frames += frame_count
     wf.writeframes(audio_chunk)
  duration = total_frames / wf.getframerate()

  end_time = time.monotonic()
  print(f"It took {end_time - start_time} seconds to generate {duration:.2f} seconds of audio")
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
158 16
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
AI音色克隆能模拟人的特质吗
AI技术迅猛发展,从文生文到文生视频,不断重塑生活与娱乐模式。音色克隆技术作为革命性成果,能精准捕捉并复制个人声音特征,应用于动画配音、游戏语音、音乐创作及教育领域,极大提升用户体验和内容创作效率。对于播客而言,这既是挑战也是机遇,借助该技术可提升作品趣味性和丰富度,提高创作效率,吸引更多流量。未来,AI音色克隆技术将在更多领域发挥重要作用。
国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类
MaskGCT是一种由国内团队开发的新型非自回归文本到语音合成模型,采用两阶段模型设计和掩码预测学习范式,无需显式对齐信息及音素级别持续时间预测,能高效生成高质量语音,达到近似人类水平。其开源发布标志着国产语音大模型技术的重大突破,具有广泛的应用前景和重要的科研价值。
289 13
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
111 4
耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
【7月更文挑战第5天】字节跳动的Seed-TTS技术在语音合成领域实现重大突破,生成的语音与真人难辨真假。基于深度学习的模型能模拟多种情感、口音,适用于智能客服、有声读物等场景。尽管面临计算资源需求大、个别情况合成质量不稳及潜在伦理问题,该技术仍标志着语音合成的新高度。[论文链接](https://arxiv.org/abs/2406.02430)**
438 1
FunAudioLLM:探索音频基座大模型在AI应用中的新境界
FunAudioLLM:探索音频基座大模型在AI应用中的新境界
199 0
AI配音 | 接近真人发音的机器人,小程序上线了!
而这一次,给大家带来的是小程序和更多播讲人的上线,合成更加方便,直接手机就能完成。
439 0

热门文章

最新文章