📢 我们发布了新一代端到端语音交互模型 Fun-Audio-Chat!

简介: 通义百聆开源Fun-Audio-Chat(8B),支持端到端语音交互,具备情感感知与任务执行能力。在多榜单同尺寸模型中排名第一,支持高精度语音理解、情感识别与Function Call,高效低延迟,已全面开放代码与权重,欢迎体验!

不是简单的“能聊天”,而是听得懂你的话、感知你的情绪、还能帮你真正干活的AI语音搭子。

继开源Fun-ASR-Nano和Fun-CosyVoice3后,通义百聆本周开源了Fun-Audio-Chat(8B)。在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多个权威榜单上,同尺寸模型排名第一,综合性能远超 GLM4-Voice、Kimi-Audio、Baichuan-Omni......

✅ 技术表现:
🎯端到端 S2S 架构:从语音输入直接生成语音输出,无需 ASR + LLM + TTS 多模块拼接,效率更高、延迟更低。
🎯双分辨率设计:Shared LLM 层以 5Hz 帧率 高效处理,SRH 以 25Hz 帧率 生成高质量语音,GPU 计算开销降低近 50%。
🎯百万小时多任务数据训练:覆盖音频理解、语音问答、情感识别、工具调用等真实场景,让模型更“接地气”。

✅ 高情商:像朋友一样的对话体验
🎯你生气时,它会安慰你;你焦虑时,它会陪你深呼吸;你开心时,它会跟着你一起嗨。
🎯哪怕你没直接说情绪,它也能从你的语气、语速、停顿里,猜出你的心情,然后给出恰到好处的回应。

✅ 易落地:它不仅能聊,还能“干实事”
🎯Speech Function Call:你只需用自然语音下达指令,它就能自动调用函数,完成复杂任务。

我们已将 8B 模型权重、推理代码、Function Call 接入示例 全部开源,欢迎体验!
GitHub:https://github.com/FunAudioLLM/Fun-Audio-Chat
HuggingFace:https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
ModelScope:https://modelscope.cn/FunAudioLLM/Fun-Audio-Chat-8B
Demo Page:https://funaudiollm.github.io/funaudiochat
image.png
image.png
image.png
image.png
image.png
image.png

相关文章
|
3月前
|
编解码 自然语言处理 搜索推荐
通义百聆语音交互模型开源,创新架构可节省近50%GPU计算!
通义百聆开源新一代语音模型Fun-Audio-Chat-8B,支持语音对语音交互,具备出色共情与情绪感知能力,对话自然流畅。在多项基准测试中超越同级模型,采用高效低算力架构,GPU计算成本降低近50%。支持角色扮演与个性化语音定制,适用于情感陪伴、智能客服等场景,现已开放下载。
547 9
|
3月前
|
机器学习/深度学习 缓存 物联网
打造社交APP人物动漫化:通义万相wan2.x训练优化指南
本项目基于通义万相AIGC模型,为社交APP打造“真人变身跳舞动漫仙女”特效视频生成功能。通过LoRA微调与全量训练结合,并引入Sage Attention、TeaCache、xDIT并行等优化技术,实现高质量、高效率的动漫风格视频生成,兼顾视觉效果与落地成本,最终优选性价比最高的wan2.1 lora模型用于生产部署。(239字)
1336 103
|
4月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
2349 86
让AI评测AI:构建智能客服的自动化运营Agent体系
|
3月前
|
机器学习/深度学习 安全 API
MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA!
MAI-UI是通义实验室推出的全尺寸GUI智能体基座模型,原生集成用户交互、MCP工具调用与端云协同能力。支持跨App操作、模糊语义理解与主动提问澄清,通过大规模在线强化学习实现复杂任务自动化,在出行、办公等高频场景中表现卓越,已登顶ScreenSpot-Pro、MobileWorld等多项SOTA评测。
2825 7
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
构建AI智能体:七十一、模型评估指南:准确率、精确率、F1分数与ROC/AUC的深度解析
本文系统介绍了机器学习模型评估的核心指标与方法。首先阐述了混淆矩阵的构成(TP/FP/FN/TN),并基于此详细讲解了准确率、精确率、召回率和F1分数的计算原理和适用场景。特别指出准确率在不平衡数据中的局限性,强调精确率(减少误报)和召回率(减少漏报)的权衡关系。然后介绍了ROC曲线和AUC值的解读方法,说明如何通过调整分类阈值来优化模型性能。最后总结了不同业务场景下的指标选择策略:高精度场景侧重精确率,高召回场景关注召回率,平衡场景优选F1分数,不平衡数据则推荐使用AUC评估。
553 20
|
3月前
|
编解码 测试技术 异构计算
通义百聆语音交互模型开源,创新架构可节省近50%GPU计算!
通义百聆开源Fun-Audio-Chat-8B,支持语音对语音交互,在多测评中斩获SOTA。具备共情能力,可感知情绪并自然回应,适用于陪伴、客服等场景,支持角色扮演与定制语音,高效低算力架构节省近50% GPU资源。
708 3
通义百聆语音交互模型开源,创新架构可节省近50%GPU计算!
|
3月前
|
人工智能 自然语言处理 语音技术
AI配音告别"罐头味儿",阿里Qwen3-TTS让机器"声情并茂"
2025年12月24日,阿里巴巴升级语音模型家族Qwen3-TTS,重磅发布音色创造模型Qwen3-TTS-VD(VoiceDesign)和音色克隆模型Qwen3-TTS-VC(VoiceClone)。仅用3秒音频就能"像素级"克隆人声,支持10大主流语言及9种方言,在权威测试中多项性能超越GPT-4
1086 0
|
3月前
|
人工智能 自然语言处理 安全
|
4月前
|
自然语言处理 API 内存技术
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
通义千问Qwen3-LiveTranslate-Flash推出实时多模态同声传译,支持18种语言及多种方言,融合视觉信息增强理解,实现3秒超低延迟、高精度语音翻译,适用于复杂环境下的跨语言交流。
562 1
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
|
3月前
|
人工智能 自然语言处理 文字识别
Qwen3-Omni新升级:声形意合,令出智随!
Qwen3-Omni-Flash-2025-12-01是全新升级的全模态大模型,支持文本、图像、音频、视频输入,实现自然语音与文本同步输出。全面优化音视频理解与生成,支持多轮流畅对话、自定义人设与系统指令,提升多语言及跨模态交互准确性,语音更拟人,图像视频理解更深入,打造“声形意合”的智能交互体验。(239字)
633 0

热门文章

最新文章