📢 我们发布了新一代端到端语音交互模型 Fun-Audio-Chat!

简介: 通义百聆开源Fun-Audio-Chat(8B),支持端到端语音交互,具备情感感知与任务执行能力。在多榜单同尺寸模型中排名第一,支持高精度语音理解、情感识别与Function Call,高效低延迟,已全面开放代码与权重,欢迎体验!

不是简单的“能聊天”,而是听得懂你的话、感知你的情绪、还能帮你真正干活的AI语音搭子。

继开源Fun-ASR-Nano和Fun-CosyVoice3后,通义百聆本周开源了Fun-Audio-Chat(8B)。在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多个权威榜单上,同尺寸模型排名第一,综合性能远超 GLM4-Voice、Kimi-Audio、Baichuan-Omni......

✅ 技术表现:
🎯端到端 S2S 架构:从语音输入直接生成语音输出,无需 ASR + LLM + TTS 多模块拼接,效率更高、延迟更低。
🎯双分辨率设计:Shared LLM 层以 5Hz 帧率 高效处理,SRH 以 25Hz 帧率 生成高质量语音,GPU 计算开销降低近 50%。
🎯百万小时多任务数据训练:覆盖音频理解、语音问答、情感识别、工具调用等真实场景,让模型更“接地气”。

✅ 高情商:像朋友一样的对话体验
🎯你生气时,它会安慰你;你焦虑时,它会陪你深呼吸;你开心时,它会跟着你一起嗨。
🎯哪怕你没直接说情绪,它也能从你的语气、语速、停顿里,猜出你的心情,然后给出恰到好处的回应。

✅ 易落地:它不仅能聊,还能“干实事”
🎯Speech Function Call:你只需用自然语音下达指令,它就能自动调用函数,完成复杂任务。

我们已将 8B 模型权重、推理代码、Function Call 接入示例 全部开源,欢迎体验!
GitHub:https://github.com/FunAudioLLM/Fun-Audio-Chat
HuggingFace:https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
ModelScope:https://modelscope.cn/FunAudioLLM/Fun-Audio-Chat-8B
Demo Page:https://funaudiollm.github.io/funaudiochat
image.png
image.png
image.png
image.png
image.png
image.png

相关文章
|
6月前
|
编解码 自然语言处理 搜索推荐
通义百聆语音交互模型开源,创新架构可节省近50%GPU计算!
通义百聆开源新一代语音模型Fun-Audio-Chat-8B,支持语音对语音交互,具备出色共情与情绪感知能力,对话自然流畅。在多项基准测试中超越同级模型,采用高效低算力架构,GPU计算成本降低近50%。支持角色扮演与个性化语音定制,适用于情感陪伴、智能客服等场景,现已开放下载。
827 9
|
6月前
|
机器学习/深度学习 缓存 物联网
打造社交APP人物动漫化:通义万相wan2.x训练优化指南
本项目基于通义万相AIGC模型,为社交APP打造“真人变身跳舞动漫仙女”特效视频生成功能。通过LoRA微调与全量训练结合,并引入Sage Attention、TeaCache、xDIT并行等优化技术,实现高质量、高效率的动漫风格视频生成,兼顾视觉效果与落地成本,最终优选性价比最高的wan2.1 lora模型用于生产部署。(239字)
2013 106
|
6月前
|
机器学习/深度学习 安全 API
MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA!
MAI-UI是通义实验室推出的全尺寸GUI智能体基座模型,原生集成用户交互、MCP工具调用与端云协同能力。支持跨App操作、模糊语义理解与主动提问澄清,通过大规模在线强化学习实现复杂任务自动化,在出行、办公等高频场景中表现卓越,已登顶ScreenSpot-Pro、MobileWorld等多项SOTA评测。
3576 7
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
构建AI智能体:七十一、模型评估指南:准确率、精确率、F1分数与ROC/AUC的深度解析
本文系统介绍了机器学习模型评估的核心指标与方法。首先阐述了混淆矩阵的构成(TP/FP/FN/TN),并基于此详细讲解了准确率、精确率、召回率和F1分数的计算原理和适用场景。特别指出准确率在不平衡数据中的局限性,强调精确率(减少误报)和召回率(减少漏报)的权衡关系。然后介绍了ROC曲线和AUC值的解读方法,说明如何通过调整分类阈值来优化模型性能。最后总结了不同业务场景下的指标选择策略:高精度场景侧重精确率,高召回场景关注召回率,平衡场景优选F1分数,不平衡数据则推荐使用AUC评估。
796 20
|
6月前
|
编解码 测试技术 异构计算
通义百聆语音交互模型开源,创新架构可节省近50%GPU计算!
通义百聆开源Fun-Audio-Chat-8B,支持语音对语音交互,在多测评中斩获SOTA。具备共情能力,可感知情绪并自然回应,适用于陪伴、客服等场景,支持角色扮演与定制语音,高效低算力架构节省近50% GPU资源。
1028 3
通义百聆语音交互模型开源,创新架构可节省近50%GPU计算!
|
6月前
|
人工智能 自然语言处理 安全
|
6月前
|
人工智能 自然语言处理 语音技术
AI配音告别"罐头味儿",阿里Qwen3-TTS让机器"声情并茂"
2025年12月24日,阿里巴巴升级语音模型家族Qwen3-TTS,重磅发布音色创造模型Qwen3-TTS-VD(VoiceDesign)和音色克隆模型Qwen3-TTS-VC(VoiceClone)。仅用3秒音频就能"像素级"克隆人声,支持10大主流语言及9种方言,在权威测试中多项性能超越GPT-4
1786 0
|
6月前
|
人工智能 自然语言处理 文字识别
Qwen3-Omni新升级:声形意合,令出智随!
Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型,支持文本、图像、音频、视频输入,实现自然语音与文本同步输出。全面优化音视频理解与生成,支持多轮流畅对话、自定义人设与系统指令,提升多语言及跨模态交互准确性,语音更拟人,图像视频理解更深入,打造“声形意合”的智能交互体验。(239字)
886 0
|
5月前
|
人工智能 搜索推荐 API
FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆
FlashLabs 发布全球首个开源、端到端、实时语音到语音 AI 模型 Chroma 1.0,支持低延迟(TTFT \x26lt; 150ms)、高保真语音克隆与强对话能力,旨在成为 OpenAI Realtime API 的开源替代方案。
647 3
|
6月前
|
人工智能 自然语言处理 语音技术
通义百聆语音双子星,同步开源!
通义百聆全新升级,推出Fun-CosyVoice3与Fun-ASR系列模型。3秒录音即可实现9种语言、18种方言及多情感音色克隆,支持中英混说、跨语种合成;Fun-ASR识别准确率高达93%,支持31种语言自由混说、歌词说唱识别,并开源轻量级模型,助力高效本地部署与定制开发。
1958 5
通义百聆语音双子星,同步开源!

热门文章

最新文章