音频基座大模型FunAudioLLM评测

简介: 通义语音团队最新开源了音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。本文对这两种大模型进行整体的评测。

音频识别的背景历史:

(20世纪50年代至70年代)
  • 1950年代初:第一台口授打字机和第一台英语单词识别器的出现,标志着音频识别研究的开始。这些早期的设备和技术还非常原始,只能识别一些简单的单词和数字。
  • 1952年:贝尔实验室的Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统,这是语音识别领域的一个重要里程碑。
  • 1960年代:随着电子技术的进一步发展,语音识别技术得到了进一步的研究。例如,英国的Denes等人研制了第一个计算机语音识别系统。然而,这一时期的语音识别技术仍然非常有限,只能识别少量的词汇,且准确率较低。
  • 1970年代:统计语言学的出现为语音识别技术带来了新的突破。IBM公司开始使用统计方法进行语音识别研究,显著提高了识别率和词汇量。同时,动态时间规整技术(DTW)等关键技术的出现也为语音识别技术的发展奠定了重要基础。
技术突破阶段(20世纪70年代至90年代)
  • 1970年代末期:矢量量化的码书设计方法LBG算法提出,并成功应用于语音编码。随后,矢量量化的应用推广到其它领域,包括语音识别和说话人识别等。
  • 1980年代:随着矢量量化、隐马尔科夫模型(HMM)和人工神经网络等技术的不断改进和完善,语音识别技术取得了突破性进展。特别是隐马尔科夫模型在语音识别中的成功应用,使声学统计模型研究逐渐深入,成为当时语音识别领域的主流技术。
  • 1990年代:语音识别技术开始逐渐应用于商业领域,如电话系统、自动语音应答系统(IVR)、语音邮件等。同时,随着计算机技术的不断发展,语音识别的准确率和词汇量也得到了进一步提升。
广泛应用阶段(21世纪至今)
  • 21世纪初:随着人工智能技术的快速发展,语音识别技术得到了更加广泛的应用。智能音箱、智能手机等消费电子产品中开始集成语音识别功能,为用户提供了更加便捷的操作体验。
  • 近年来:语音识别技术不仅在消费电子产品中得到了普及,还开始应用于语音翻译、智能客服、语音搜索等领域。同时,随着深度学习等技术的不断突破,语音识别的准确率和鲁棒性也得到了极大的提升,甚至可以达到甚至超过人类语音识别的水平。

音频基座两个大模型

通义语言团队最新开源了音频基座大模型FunAudioLLM,包括了两个大模型,SenseVoice和CosyVoice。 SenseVoice:多语言音频理解大模型:多语言语音识别在中文和粤语上相比Whisper提升了50%,推理的速度提升了将近15倍,并且支持SOTA的情绪识别和音频事件检测。

CosyVoice:多语言音频生成大模型:超过17万小时的多语言音频数据训练,支持多语言、音色和情况的控制,CosyVoice在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现非常好;

体验FunAudioLLM:

CosyVoice-300的评测:

CosyVoice-300M体验地址:https://www.modelscope.cn/studios/iic/CosyVoice-300M

换一下360浏览器试试:

还是不行;

换一下Edge试试:

上来就报错了;

评测总结:

由于大模型的运行环境报错,无法进行生产不同的音频,所以该大模型无法进行相关的评测,看了留言发现有些人也遇到了类似的问题,感觉在稳定性方面还是需要加强的,如果说在测评的时候都会运行报错,可能存在以下的几种问题,第一:稳定性方面是存在问题的,无法长久稳定的运行,对于一个产品类说稳定性非常的重要;第二:并发性,是否由于并发性导致的大量请求导致的,空间运行错误;第三:报错原因没有给出详细的解释,比如说网络错误,并发错误,还是说节点的问题,内部错误等等;希望后续可以修复该bug,给用户提供更好的体验。

SenseVoice的评测:

我换另外一个大模型试试;

SenseVoice大模型地址:https://www.modelscope.cn/studios/iic/SenseVoice

运行是正常的;

由于音频没有办法生成,所以我选择音乐文件试试;

经过几秒之后,上传成功了

点击开始播放,然后通过start按钮试一下是否可以识别出来具体的文字:

通过上面的小人可以看到是 可以做到情感识别的,这个真不错,哈哈

通过对于音频识别大模型的体验,发现这个大模型对于语音识别是非常强大的,并且通过音乐的情感可以识别出来具体的不同的小人头像,这个也非常的不错;

评测最后:

对于语音方面的评测,我是比较满意的,对于文件的大小没有给出限制,并且随便上传一首歌曲都能是被是高兴的还是伤心的歌曲,这个就比较强大了,对于后面在一些特殊场景下,就能听出来会议上面,老板是高兴的发言还是生气的发言,并且有些特殊场景下面,对于人工智能来说就更具有优势了,因为与人工智能进行交流的时候,如果说人工智能不能听出来你是高兴的,还是生气的,就不能说是合格的产品了,还记得有一个新闻上面说的一样,一个医院上的导航机器人,问了一些话,不能识别交流的人正在伤心,上来就说了一句,你今天高兴吗?这是非常不合适的;并且在听到病人说不高兴之后,还在进行一些对话,一定都听不懂病人的情绪。

以后人工智能的发展离不开音频识别的,尤其是对于对话机器人,所以说这款大模型非常的强大。也希望以后随着使用者越来越多,这个大模型也能打磨越来越成熟;

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
人工智能 文字识别 安全
大模型能力评测方式很多?
AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。
191 0
|
5月前
|
人工智能 自然语言处理 JavaScript
通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
通义灵码基于自然语言需求,快速生成完整Vue组件。例如,用Vue 2和JavaScript实现贪吃蛇游戏:包含键盘控制、得分系统、游戏结束判定与Canvas动态渲染。AI生成的代码符合规范,支持响应式数据与事件监听,还能进阶优化(如增加启停按钮、速度随分数提升)。传统需1小时的工作量,使用通义灵码仅10分钟完成,大幅提升开发效率。操作简单:安装插件、输入需求、运行项目即可实现功能。
253 4
 通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
|
5月前
|
人工智能 自然语言处理 IDE
技术赋能新维度,灵码进化新突破:通义灵码2.5新功能尝鲜及深度评测
通义灵码是阿里云推出的基于通义大模型的智能编程助手,作为首款全栈智能辅助的国产编码工具,它为开发者提供“第二大脑”,并重构团队协作效能。2.5版本新增智能体模式,支持Qwen3系列模型,具备自主决策、工程感知和记忆能力,集成3000+MCP工具。其优势包括多模式对话体验、上下文增强、全流程工具链支持及个性化记忆功能,但仍存在上下文管理、权限控制和语言支持等方面的改进空间。此次更新标志着AI辅助开发进入全链路智能化新纪元,成为开发者真正的“结对编程伙伴”。
1066 36
|
13天前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
173 3
|
4月前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
507 62
|
3月前
|
人工智能 自然语言处理 vr&ar
通义首个音频生成模型 ThinkSound 开源,你的专业音效师
通义实验室推出首个音频生成模型ThinkSound,突破传统视频到音频生成技术局限,首次将思维链(CoT)应用于音频生成领域,实现高保真、强同步的空间音频生成。基于自研AudioCoT数据集,结合多模态大语言模型与统一音频生成模型,支持交互式编辑,显著提升音画匹配度与时序一致性。代码已开源,助力游戏、VR、AR等场景创新应用。
790 3
|
4月前
|
人工智能 IDE 搜索推荐
通义灵码2.5评测:从编程智能体到记忆感知的AI编码革命
通义灵码2.5版本更新带来了多项新功能,包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外,新增长期记忆与上下文感知功能,使开发更个性化和高效。尽管存在一些局限性,如复杂业务逻辑仍需人工干预,但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。
784 10
|
4月前
|
数据采集 人工智能 安全
揭秘大模型评测:如何用“说明书”式方法实现业务场景下的精准评估
本文旨在系统性地介绍如何在实际业务场景中开展大模型评测工作,帮助读者理解并掌握从需求分析、评测集设计与生成、评测维度设定、评测任务执行到评测报告输出的完整流程。
|
5月前
|
人工智能 Java API
通义灵码 2.5 版深度评测:智能编程的边界在哪里?
通义灵码 2.5 版深度评测:智能编程的边界在哪里?
171 2
|
5月前
|
传感器 人工智能 API
通义灵码2.5深度评测:编程智能体与MCP工具的革新体验
通义灵码2.5通过“智能体+MCP”组合,重新定义了AI编码助手的边界。其价值不仅在于代码生成效率,更在于通过工具链整合和环境感知,推动开发流程向“声明式编程”演进。对于开发者而言,它既是提升效率的利器,也是探索AI辅助开发边界的实验场。
380 8

热门文章

最新文章