今天,FlashLabs 正式发布 Chroma 1.0 ——全球首个开源的支持声音克隆、高保真、端到端、实时语音到语音(Speech-to-Speech)AI 模型,并逐步部署于 FlashAI语音智能体平台。
Chroma 是一个研究级、完全开源的实时语音模型,定位为 OpenAI Realtime API 的开放替代方案,面向全球开发者、研究者与企业用户。
🚨 Chroma 1.0 有什么不同?
与传统「ASR → LLM → TTS」多阶段管线不同,Chroma 原生支持语音到语音的端到端建模,在延迟、自然度与一致性上实现突破式提升。核心亮点
- ⚡ 端到端首字节延迟(TTFT)< 150ms
- 🎙️原生Speech-to-Speech架构(非拼接式流水线)
- 🧬几秒参考音频即可完成高保真声音克隆
- 📈SIM相似度=0.817
-
- 相比人类基线(0.73)提升+10.96%
- 在已测试的开源与闭源模型中表现领先
- 相比人类基线(0.73)提升+10.96%
- 🧠仅4B参数即具备强对话与推理能力
-
- 基于Qwen2.5-Omni-3B、Llama 3、Mimi等架构优化
- 基于Qwen2.5-Omni-3B、Llama 3、Mimi等架构优化
- 🔓完全开源(代码+权重)
Chroma在发布当天即支持SGLang推理框架,用于高并发、低延迟实时语音场景:
- 🧠Thinker TTFT再降≈15%
- ⏱️端到端TTFT低至≈135ms
- 🔊实时因子(RTF)≈0.47–0.51
🌍 面向未来的实时语音 AI 基础模型
Chroma 1.0 的发布,标志着实时语音 AI 正式进入“开源 + 端到端 + 低延迟”的新阶段。
它不仅适用于 AI 呼叫中心、语音客服、销售外呼、虚拟人、实时翻译 等场景,也为研究者提供了一个可复现、可扩展的基础模型。
FlashLabs 相信:
语音将成为 AI 时代最重要的人机接口,而实时性是决定体验的关键。
Chroma 1.0 让开源社区首次拥有能够与顶级闭源产品相媲美的语音实时端到端、高保真生成能力。
🔗 了解更多
- 产品部署:FlashAI 语音智能体
- Paper & Benchmarks:https://arxiv.org/abs/2601.11141
- 开源代码与模型权重:
🤗 Huggingface:https://huggingface.co/FlashLabs/Chroma-4B
💻 Model:https://modelscope.cn/models/FlashLabs/Chroma-4B
🔗 Inference:https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma
- 演示视频(Voice Test):
以下视频来源于
FlashLabs
点击即可跳转模型链接~