TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换

简介: TangoFlux 是由英伟达与新加坡科技设计大学联合开发的文本到音频生成模型,能够在3.7秒内生成30秒的高质量音频,支持文本到音频的直接转换和用户偏好优化。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 高效生成:TangoFlux 能在3.7秒内生成30秒的高质量音频。
  2. 文本转换:支持将文本描述直接转换为音频输出。
  3. 偏好优化:通过CRPO框架优化音频输出,使其更符合用户偏好。

正文(附运行示例)

TangoFlux 是什么

公众号: 蚝油菜花 - TangoFlux

TangoFlux 是由新加坡科技设计大学(SUTD)和英伟达(NVIDIA)联合开发的高效文本到音频生成模型。该模型拥有约5.15亿参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。

TangoFlux 采用了CLAP-Ranked Preference Optimization(CRPO)框架,通过迭代生成和优化偏好数据来提升模型的音频对齐能力。在客观和主观基准测试中,TangoFlux 均展现出优异的性能,并在GitHub等平台开源了代码和模型,支持进一步的研究和开发。

TangoFlux 的主要功能

  • 高效音频生成:TangoFlux 能快速生成高质量的音频内容,在3.7秒内生成长达30秒的44.1kHz音频。
  • 文本到音频转换:模型直接将文本描述转换为相应的音频输出,实现文本到音频的直接转换。
  • 偏好优化:TangoFlux 能优化音频输出,使其更好地符合用户的偏好和输入文本的意图。
  • 非专有数据训练:基于非专有数据集进行训练,让模型更加开放和可访问。

TangoFlux 的技术原理

  • 变分自编码器:用VAE将音频波形编码成潜在的表示,从潜在表示中重构原始音频。
  • 文本和时长嵌入:模型基于文本编码和时长编码来控制生成音频的内容和时长,实现对音频的可控生成。
  • FluxTransformer架构:基于FluxTransformer块构建,结合Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT),处理文本提示和生成音频。
  • 流匹配(Flow Matching, FM):基于流匹配框架,学习从简单先验分布到复杂目标分布的映射,生成样本。
  • CLAP-Ranked Preference Optimization (CRPO):CRPO框架基于迭代生成偏好数据对,优化音频对齐。用CLAP模型作为代理奖励模型,基于文本和音频的联合嵌入来评估音频输出的质量,并据此构建偏好数据集,进行偏好优化。
  • 直接偏好优化:TangoFlux 将DPO应用于流匹配,比较获胜和失败的音频样本来优化模型,提高音频与文本描述的对齐度。

如何运行 TangoFlux

import torchaudio
from tangoflux import TangoFluxInference
from IPython.display import Audio

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

Audio(data=audio, rate=44100)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
人工智能 物联网 测试技术
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
4400 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
|
6月前
|
Web App开发 网络协议 Linux
如何屏蔽 iOS 26 软件自动更新,去除更新通知和标记
如何屏蔽 iOS 26 软件自动更新,去除更新通知和标记
11380 3
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
2218 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
1782 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
人工智能 自然语言处理 API
Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统
Oliva是一款基于Langchain和Superlinked的开源语音RAG助手,通过实时语音交互在Qdrant向量数据库中进行语义搜索,支持多智能体协作处理复杂查询任务。
749 4
Oliva:语音RAG革命!开源多智能体秒解复杂搜索,实时对讲颠覆传统
|
人工智能 数据挖掘 大数据
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
631 16
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
3121 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
人工智能 物联网 PyTorch
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。
1271 5
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
|
人工智能 自然语言处理 并行计算
Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格
Kokoro-TTS 是一款轻量级文本转语音模型,支持多语言和多语音风格生成,具备实时处理能力和低资源占用,适用于多种应用场景。
2519 5
Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格
|
人工智能 自然语言处理 API
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
4319 5
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms

热门文章

最新文章