FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆

简介: FlashLabs 发布全球首个开源、端到端、实时语音到语音 AI 模型 Chroma 1.0,支持低延迟(TTFT \x26lt; 150ms)、高保真语音克隆与强对话能力,旨在成为 OpenAI Realtime API 的开源替代方案。

今天,FlashLabs 正式发布 Chroma 1.0 ——全球首个开源的支持声音克隆、高保真、端到端、实时语音到语音(Speech-to-Speech)AI 模型,并逐步部署于 FlashAI语音智能体平台。


Chroma 是一个研究级、完全开源的实时语音模型,定位为 OpenAI Realtime API 的开放替代方案,面向全球开发者、研究者与企业用户。

🚨 Chroma 1.0 有什么不同?

与传统「ASR → LLM → TTS」多阶段管线不同,Chroma 原生支持语音到语音的端到端建模,在延迟、自然度与一致性上实现突破式提升。


核心亮点

  • 端到端首字节延迟(TTFT)< 150ms

  • 🎙️原生Speech-to-Speech架构(非拼接式流水线)
  • 🧬几秒参考音频即可完成高保真声音克隆
  • 📈SIM相似度=0.817
    • 相比人类基线(0.73)提升+10.96%
    • 在已测试的开源与闭源模型中表现领先
  • 🧠仅4B参数即具备强对话与推理能力
    • 基于Qwen2.5-Omni-3B、Llama 3、Mimi等架构优化
  • 🔓完全开源(代码+权重)

Chroma在发布当天即支持SGLang推理框架,用于高并发、低延迟实时语音场景:

  • 🧠Thinker TTFT再降≈15%
  • ⏱️端到端TTFT低至≈135ms
  • 🔊实时因子(RTF)≈0.47–0.51

🌍 面向未来的实时语音 AI 基础模型

Chroma 1.0 的发布,标志着实时语音 AI 正式进入“开源 + 端到端 + 低延迟”的新阶段
它不仅适用于 AI 呼叫中心、语音客服、销售外呼、虚拟人、实时翻译 等场景,也为研究者提供了一个可复现、可扩展的基础模型。

FlashLabs 相信:

语音将成为 AI 时代最重要的人机接口,而实时性是决定体验的关键。

Chroma 1.0 让开源社区首次拥有能够与顶级闭源产品相媲美的语音实时端到端、高保真生成能力。

🔗 了解更多


  • 演示视频(Voice Test):
    以下视频来源于
    FlashLabs


点击即可跳转模型链接~

https://modelscope.cn/models/FlashLabs/Chroma-4B

目录
相关文章
|
3月前
|
机器学习/深度学习 文字识别 测试技术
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
阶跃星辰发布开源多模态小模型Step3-VL-10B,仅10B参数却媲美百亿级大模型,在视觉感知、逻辑推理、数学竞赛等任务中达同规模SOTA,支持端侧部署,推动智能终端交互革新。
378 6
|
3月前
|
机器学习/深度学习 人工智能 JSON
大模型微调实战:从原理到落地的完整指南
本文系统讲解大模型微调的原理与实战,涵盖LoRA等高效方法,手把手教你用少量数据定制专属模型,结合数据准备、训练策略与效果评估,助力开发者低成本实现AI应用落地。
|
1月前
|
机器学习/深度学习 开发者 内存技术
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!
阶跃星辰开源Step 3.5 Flash——迄今最强开源Agent基座模型,含Base/Midtrain权重及Steptron全栈训练框架,支持预训练、SFT与强化学习,专为智能体设计。已登OpenRouter榜首,获社区广泛好评。(239字)
549 22
|
3月前
|
测试技术 API
小而强,GLM-4.7-Flash开源
GLM-4.7-Flash正式开源,30B总参、3B激活参数,兼顾性能与效率,支持免费调用。在编程、中文写作、翻译等多场景表现优异,已上线智谱平台,替代GLM-4.5-Flash,提供全新轻量化部署选择。
1672 1
|
3月前
|
机器学习/深度学习 存储 人工智能
国内首个全国产化千亿参数细粒度 MoE:开源!
TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。
361 2
国内首个全国产化千亿参数细粒度 MoE:开源!
|
3月前
|
机器学习/深度学习 测试技术 数据中心
九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代
2026年首日,九坤创始团队成立的至知创新研究院开源IQuest-Coder-V1系列代码大模型,涵盖7B至40B参数,支持128K上下文与GQA架构,提供Base、Instruct、Thinking及Loop版本。采用创新Code-Flow训练范式,模拟代码演化全过程,提升复杂任务推理能力,在SWE-Bench、LiveCodeBench等基准领先。全阶段checkpoint开放,支持本地部署与微调,助力研究与应用落地。
1264 2
|
3月前
|
存储 人工智能 安全
推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI
Doo AI是一款简洁易用的开源AI模型本地部署工具,支持通义千问3/VL、LLaMA3.1等主流HF格式模型。下载即用,扫描→点击“加载”,可以快速、轻松完成部署;纯本地运行,隐私安全;支持文本对话、图像识别、RAG、角色提示词等实用功能。(239字)
1237 4
推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI
|
3月前
|
人工智能 Kubernetes 数据可视化
别再写"面条式文档"了!用AI给你的思维装个"图形渲染引擎"
别让线性文字限制了你的高维思考。本文揭示了大脑作为"图形处理器"的本质,提供了一套专业的AI指令,将复杂的逻辑思维"序列化"为清晰的拓扑结构,像渲染DOM树一样可视化你的知识体系,极大提升沟通与学习效率。
396 12

热门文章

最新文章