音频基座大模型FunAudioLLM评测

简介: 通义语音团队最新开源了音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。本文对这两种大模型进行整体的评测。

音频识别的背景历史:

(20世纪50年代至70年代)
  • 1950年代初:第一台口授打字机和第一台英语单词识别器的出现,标志着音频识别研究的开始。这些早期的设备和技术还非常原始,只能识别一些简单的单词和数字。
  • 1952年:贝尔实验室的Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统,这是语音识别领域的一个重要里程碑。
  • 1960年代:随着电子技术的进一步发展,语音识别技术得到了进一步的研究。例如,英国的Denes等人研制了第一个计算机语音识别系统。然而,这一时期的语音识别技术仍然非常有限,只能识别少量的词汇,且准确率较低。
  • 1970年代:统计语言学的出现为语音识别技术带来了新的突破。IBM公司开始使用统计方法进行语音识别研究,显著提高了识别率和词汇量。同时,动态时间规整技术(DTW)等关键技术的出现也为语音识别技术的发展奠定了重要基础。
技术突破阶段(20世纪70年代至90年代)
  • 1970年代末期:矢量量化的码书设计方法LBG算法提出,并成功应用于语音编码。随后,矢量量化的应用推广到其它领域,包括语音识别和说话人识别等。
  • 1980年代:随着矢量量化、隐马尔科夫模型(HMM)和人工神经网络等技术的不断改进和完善,语音识别技术取得了突破性进展。特别是隐马尔科夫模型在语音识别中的成功应用,使声学统计模型研究逐渐深入,成为当时语音识别领域的主流技术。
  • 1990年代:语音识别技术开始逐渐应用于商业领域,如电话系统、自动语音应答系统(IVR)、语音邮件等。同时,随着计算机技术的不断发展,语音识别的准确率和词汇量也得到了进一步提升。
广泛应用阶段(21世纪至今)
  • 21世纪初:随着人工智能技术的快速发展,语音识别技术得到了更加广泛的应用。智能音箱、智能手机等消费电子产品中开始集成语音识别功能,为用户提供了更加便捷的操作体验。
  • 近年来:语音识别技术不仅在消费电子产品中得到了普及,还开始应用于语音翻译、智能客服、语音搜索等领域。同时,随着深度学习等技术的不断突破,语音识别的准确率和鲁棒性也得到了极大的提升,甚至可以达到甚至超过人类语音识别的水平。

音频基座两个大模型

通义语言团队最新开源了音频基座大模型FunAudioLLM,包括了两个大模型,SenseVoice和CosyVoice。 SenseVoice:多语言音频理解大模型:多语言语音识别在中文和粤语上相比Whisper提升了50%,推理的速度提升了将近15倍,并且支持SOTA的情绪识别和音频事件检测。

CosyVoice:多语言音频生成大模型:超过17万小时的多语言音频数据训练,支持多语言、音色和情况的控制,CosyVoice在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现非常好;

体验FunAudioLLM:

CosyVoice-300的评测:

CosyVoice-300M体验地址:https://www.modelscope.cn/studios/iic/CosyVoice-300M

换一下360浏览器试试:

还是不行;

换一下Edge试试:

上来就报错了;

评测总结:

由于大模型的运行环境报错,无法进行生产不同的音频,所以该大模型无法进行相关的评测,看了留言发现有些人也遇到了类似的问题,感觉在稳定性方面还是需要加强的,如果说在测评的时候都会运行报错,可能存在以下的几种问题,第一:稳定性方面是存在问题的,无法长久稳定的运行,对于一个产品类说稳定性非常的重要;第二:并发性,是否由于并发性导致的大量请求导致的,空间运行错误;第三:报错原因没有给出详细的解释,比如说网络错误,并发错误,还是说节点的问题,内部错误等等;希望后续可以修复该bug,给用户提供更好的体验。

SenseVoice的评测:

我换另外一个大模型试试;

SenseVoice大模型地址:https://www.modelscope.cn/studios/iic/SenseVoice

运行是正常的;

由于音频没有办法生成,所以我选择音乐文件试试;

经过几秒之后,上传成功了

点击开始播放,然后通过start按钮试一下是否可以识别出来具体的文字:

通过上面的小人可以看到是 可以做到情感识别的,这个真不错,哈哈

通过对于音频识别大模型的体验,发现这个大模型对于语音识别是非常强大的,并且通过音乐的情感可以识别出来具体的不同的小人头像,这个也非常的不错;

评测最后:

对于语音方面的评测,我是比较满意的,对于文件的大小没有给出限制,并且随便上传一首歌曲都能是被是高兴的还是伤心的歌曲,这个就比较强大了,对于后面在一些特殊场景下,就能听出来会议上面,老板是高兴的发言还是生气的发言,并且有些特殊场景下面,对于人工智能来说就更具有优势了,因为与人工智能进行交流的时候,如果说人工智能不能听出来你是高兴的,还是生气的,就不能说是合格的产品了,还记得有一个新闻上面说的一样,一个医院上的导航机器人,问了一些话,不能识别交流的人正在伤心,上来就说了一句,你今天高兴吗?这是非常不合适的;并且在听到病人说不高兴之后,还在进行一些对话,一定都听不懂病人的情绪。

以后人工智能的发展离不开音频识别的,尤其是对于对话机器人,所以说这款大模型非常的强大。也希望以后随着使用者越来越多,这个大模型也能打磨越来越成熟;

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12288 116
|
29天前
|
Swift
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
2月前
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
335 5
|
3月前
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
21898 26
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
FunAudioLLM与其他语音模型多维度对比简析
FunAudioLLM与其他语音模型多维度对比简析
109 13
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
78 10
|
3月前
|
数据采集 机器学习/深度学习 自然语言处理
如何提升模型对特定小语种的理解和生成能力?
如何提升模型对特定小语种的理解和生成能力?
|
3月前
|
自然语言处理 测试技术 API
音频基座大模型FunAudioLLM
音频基座大模型FunAudioLLM
83 9
|
3月前
|
人工智能 语音技术
通义语音AI技术问题之语义VAD模型对于传统VAD模型的问题如何解决
通义语音AI技术问题之语义VAD模型对于传统VAD模型的问题如何解决
141 0
|
4月前
|
人工智能 自然语言处理 小程序
阿里通义音频生成大模型 FunAudioLLM 开源!
声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。