探索通义语音团队的创新之作 —— FunAudioLLM模型评测

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
视觉智能开放平台,视频资源包5000点
简介: 随着人工智能技术的飞速发展,语音识别和语音合成技术在各个领域得到了广泛应用。阿里云推出的“通义语音大模型FunAudioLLM”作为最新的语音处理技术,备受业界关注。本次评测将深入探讨通义语音大模型的功能、性能及其在实际应用中的表现。

随着人工智能技术的飞速发展,语音识别和语音合成技术在各个领域得到了广泛应用。阿里云推出的“通义语音大模型”作为最新的语音处理技术,备受业界关注。本次评测将深入探讨通义语音大模型的功能、性能及其在实际应用中的表现。

通义语音大模型概述

CosyVoiceSenseVoice 是 FunAudioLLM 开发的两个多语言语音模型,分别侧重于语音生成和语音理解。CosyVoice 提供了从推理、训练到部署的全栈能力,而 SenseVoice 旨在实现多语言语音理解。

仓库地址

CosyVoice

CosyVoice 是一个多语言大规模语音生成模型,提供推理、训练和部署的全栈能力。以下是其主要功能和使用方法。

功能

  • 多语言支持:支持中文、英文、日语、粤语、韩语等多种语言。
  • 推理模式
    • 零样本推理
    • 语言间推理
    • 指令推理
  • 部署:支持使用 gRPC 和 FastAPI 进行服务部署。

安装步骤

# 克隆仓库
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive

# 安装 Conda
# 参阅 https://docs.conda.io/en/latest/miniconda.html

# 创建 Conda 环境
conda create -n cosyvoice python=3.8
conda activate cosyvoice
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

# 如果遇到 sox 兼容性问题
# Ubuntu
sudo apt-get install sox libsox-dev
# CentOS
sudo yum install sox sox-devel

模型下载

from modelscope import snapshot_download

snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

基本使用

# 零样本推理
from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
output = cosyvoice.inference_zero_shot(
    '收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。',
    '希望你以后能够做的比我还好呦。',
    prompt_speech_16k
)
torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)

SenseVoice

SenseVoice 是一个多语言语音理解模型,旨在实现对多语言语音的准确理解和处理。

功能

  • 多语言支持:支持多种语言的语音理解
  • 高效推理:提供快速准确的语音理解结果
  • 高准确率:得益于大规模数据训练和先进的模型架构,通义语音大模型在语音识别和合成方面具有极高的准确率。
  • 实时处理:支持实时语音处理,满足各种实时应用场景的需求。
  • 多场景适用:适用于各类复杂场景,包括噪音环境、多语种识别等。
  • 易于集成:通过API接口,用户可以方便地将通义语音大模型集成到自己的应用中。

评测环境与方法

为了全面评测通义语音大模型的性能,我们在多种环境下进行了测试,包括安静环境、噪音环境和多语种环境。评测内容主要包括以下几个方面:

  1. 语音识别准确率:测试模型对不同语音输入的识别准确率。
  2. 语音合成质量:评估模型生成的语音在自然度和清晰度方面的表现。
  3. 处理速度:测量模型在不同场景下的语音处理速度。
  4. 多场景适应性:测试模型在噪音环境和多语种环境下的表现。

语音识别准确率

在语音识别测试中,我们使用了包括普通话、英语、法语等多种语言的语音数据,并在安静和噪音环境中进行了测试。结果表明,通义语音大模型在安静环境中的识别准确率接近98%,在噪音环境中也能保持在90%以上的准确率。

特别值得一提的是,通义语音大模型在多语种识别方面表现出色,无论是英语、法语还是其它常见语言,都能实现高精度的识别。这对于需要多语种支持的应用场景,如国际化产品、跨国企业等,具有重要意义。

语音合成质量

语音合成测试主要评估生成语音的自然度和清晰度。通义语音大模型在这方面同样表现优异。生成的语音不仅自然流畅,而且在音质上非常接近真人发音。我们通过对比测试发现,通义语音大模型生成的语音在情感表达和语调变化上都具有很高的还原度,能够满足高质量语音合成的需求。

处理速度

在处理速度方面,通义语音大模型表现出色。在普通硬件环境下,模型能够以接近实时的速度处理语音输入。具体测试结果显示,处理一段长度为10秒的语音平均耗时不到1秒,完全能够满足实时语音处理的需求。

多场景适应性

为了测试通义语音大模型在复杂场景下的适应性,我们在不同噪音环境和多语种环境下进行了测试。结果显示,通义语音大模型在噪音环境中的识别准确率依然保持在较高水平,且对背景噪音具有较强的鲁棒性。

在多语种环境下,通义语音大模型能够准确识别和合成多种语言的语音,这对于需要支持多语言的应用场景如国际化客服系统、多语言学习应用等,提供了强有力的技术支持。

实际应用案例

通义语音大模型已在多个实际应用中得到了验证。例如:

  1. 智能客服:通过集成通义语音大模型,智能客服系统能够快速准确地识别用户语音并生成自然的语音回复,提高了用户体验和服务效率。
  2. 语音助手:在智能家居和移动设备中,语音助手集成了通义语音大模型,实现了高效的语音交互功能。
  3. 在线教育:通过语音识别和合成技术,在线教育平台能够为用户提供高质量的语音课程和实时互动功能。

总结

通过本次评测,我们可以看到,通义语音大模型在语音识别和合成方面表现出了卓越的性能。无论是在识别准确率、合成质量还是处理速度方面,通义语音大模型都展现出了行业领先的水平。其多场景适应性和易于集成的特点,使其在智能客服、语音助手、在线教育等多个领域具有广泛的应用前景。

随着人工智能技术的不断发展,语音处理技术也将不断进步。我们期待通义语音大模型在未来能够继续优化,为更多的应用场景提供优质的语音处理解决方案。对于开发者和企业来说,通义语音大模型无疑是一个值得信赖的选择。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
人工智能 开发者
通义千问三款主力模型再降价,最高降幅85%
通义千问三款主力模型再降价,最高降幅85%
610 12
通义千问三款主力模型再降价,最高降幅85%
|
3月前
|
自然语言处理 算法 云栖大会
通义万相发布视频生成模型,更懂中国风、中国话
通义万相发布视频生成模型,可一键创作影视级高清视频
673 13
|
3月前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
1337 11
|
13天前
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
98 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
23天前
|
人工智能 自然语言处理
ACE:阿里通义实验室推出的全能图像生成和编辑模型
ACE是阿里巴巴通义实验室推出的全能图像生成和编辑模型,基于扩散变换器,支持多模态输入和多任务处理。该模型通过长上下文条件单元(LCU)和统一条件格式,能够理解和执行自然语言指令,实现图像生成、编辑和多轮交互等复杂任务,显著提升视觉内容创作的效率和灵活性。
88 3
ACE:阿里通义实验室推出的全能图像生成和编辑模型
|
22天前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。
|
1月前
通义千问—7B模型
在交互式问答中,模型对历史信息的记忆能力较弱。例如,在询问“辽宁省会在哪儿”之后,如果不持续提及“沈阳”,模型将无法记住该城市,导致回答变得空泛。
|
2月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
3月前
|
人工智能 自动驾驶 云计算
【通义】AI视界|谷歌大模型被盯上!欧盟最高隐私监管机构对PaLM2模型展开调查~
本文汇总了近24小时内科技领域的五大要闻:欧盟对谷歌PaLM2模型启动隐私合规调查;甲骨文推出Zettascale云计算集群,集成大量NVIDIA GPU强化计算力;红杉资本偏好AI应用投资而非模型构建;夸克新推智能助手CueMe,支持长达2万字内容生成;沃尔沃与NVIDIA合作,未来车型将采用后者先进芯片提升自动驾驶功能。以上内容由通义自动生成。
|
3月前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
下一篇
DataWorks