通义语音大模型评测:CosyVoice与SenseVoice

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
视觉智能开放平台,分割抠图1万点
NLP自然语言处理_基础版,每接口每天50万次
简介: 随着人工智能技术的不断发展,语音生成和理解模型在各个领域得到了广泛应用。本文将评测两个由FunAudioLLM团队开发的多语言语音模型——[CosyVoice](https://github.com/FunAudioLLM/CosyVoice)和[SenseVoice](https://github.com/FunAudioLLM/SenseVoice),并结合阿里云开发者社区的相关资源,探讨其在实际应用中的表现。

CosyVoice评测

项目简介

CosyVoice 是一个多语言语音生成模型,提供了推理、训练和部署的全栈能力。该项目主要包括以下几个特性:

  • 多语言支持:能够生成多种语言的语音,包括中文、英文、日文、粤语和韩语等。
  • 多种推理模式:支持零样本推理、跨语言推理和指令推理等多种模式。
  • 完整的训练和部署支持:提供了从数据准备、模型训练到模型部署的全流程支持。

安装与使用

安装步骤

  1. 克隆项目仓库:

    git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
    cd CosyVoice
    git submodule update --init --recursive
    
  2. 创建并激活Conda环境:

    conda create -n cosyvoice python=3.8
    conda activate cosyvoice
    
  3. 安装依赖:

    conda install -y -c conda-forge pynini==2.1.5
    pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
    
  4. 下载预训练模型:

    from modelscope import snapshot_download
    snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
    snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
    snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
    snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
    

基本使用

  1. 零样本推理:

    from cosyvoice.cli.cosyvoice import CosyVoice
    from cosyvoice.utils.file_utils import load_wav
    import torchaudio
    
    cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
    prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
    output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物...', prompt_speech_16k)
    torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
    
  2. 跨语言推理:

    prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
    output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company...', prompt_speech_16k)
    torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)
    

评测总结

CosyVoice在多语言语音生成方面表现优异,尤其是在跨语言推理和零样本推理中,展现了强大的灵活性和准确性。安装和使用过程相对简单,预训练模型的提供也极大地方便了用户快速上手。

SenseVoice评测

项目简介

SenseVoice 是一个多语言语音理解模型,旨在提供高效、准确的语音理解能力。该项目的主要特点包括:

  • 多语言支持:覆盖多种语言的语音理解能力。
  • 高效推理:优化的推理速度和准确率。
  • 灵活部署:支持多种部署方式,适应不同的应用场景。

安装与使用

安装步骤

  1. 克隆项目仓库:

    git clone --recursive https://github.com/FunAudioLLM/SenseVoice.git
    cd SenseVoice
    git submodule update --init --recursive
    
  2. 创建并激活Conda环境:

    conda create -n sensevoice python=3.8
    conda activate sensevoice
    
  3. 安装依赖:

    pip install -r requirements.txt
    
  4. 下载预训练模型:

    from modelscope import snapshot_download
    snapshot_download('iic/SenseVoice-300M', local_dir='pretrained_models/SenseVoice-300M')
    

基本使用

  1. 推理示例:

    from sensevoice.cli.sensevoice import SenseVoice
    import torchaudio
    
    sensevoice = SenseVoice('pretrained_models/SenseVoice-300M')
    audio, sample_rate = torchaudio.load('input_audio.wav')
    result = sensevoice.inference(audio)
    print(result)
    

评测总结

SenseVoice在多语言语音理解方面表现出色,特别是在推理速度和准确率上有明显优势。项目的安装和使用也相对简单,预训练模型的提供使得用户可以快速实现语音理解功能。

总结

CosyVoice和SenseVoice作为FunAudioLLM团队的两大语音模型,分别在语音生成和语音理解领域展现了强大的能力。结合阿里云开发者社区提供的丰富资源,这两个模型在实际应用中具有广阔的前景。希望未来能够看到更多基于这两个模型的创新应用。

目录
相关文章
|
3月前
|
人工智能 自动驾驶 云栖大会
大模型赋能智能座舱,NVIDIA 深度适配通义千问大模型
9月20日杭州云栖大会上, NVIDIA DRIVE Orin系统级芯片实现了与阿里云通义千问多模态大模型Qwen2-VL的深度适配。阿里云、斑马智行联合NVIDIA英伟达推出舱驾融合大模型解决方案,基于通义大模型开发“能听会看”的智能座舱助理,让车内人员通过语音交流就能操作座舱内的各类应用,享受极致丰富的交互体验。
273 14
|
14天前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
17天前
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
130 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
1天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
1天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
|
3月前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
17天前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
213 8
|
29天前
|
人工智能 开发者
再次获奖!世界互联网大会把荣誉给了通义大模型
再次获奖!世界互联网大会把荣誉给了通义大模型
46 11
|
1月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2:通义千问大模型的知识蒸馏实践
DistilQwen2 是基于 Qwen2大模型,通过知识蒸馏进行指令遵循效果增强的、参数较小的语言模型。本文将介绍DistilQwen2 的技术原理、效果评测,以及DistilQwen2 在阿里云人工智能平台 PAI 上的使用方法,和在各开源社区的下载使用教程。
|
2月前
|
自然语言处理 Java API
Spring Boot 接入大模型实战:通义千问赋能智能应用快速构建
【10月更文挑战第23天】在人工智能(AI)技术飞速发展的今天,大模型如通义千问(阿里云推出的生成式对话引擎)等已成为推动智能应用创新的重要力量。然而,对于许多开发者而言,如何高效、便捷地接入这些大模型并构建出功能丰富的智能应用仍是一个挑战。
267 6