通义语音大模型评测:CosyVoice与SenseVoice

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
视觉智能开放平台,分割抠图1万点
简介: 随着人工智能技术的不断发展,语音生成和理解模型在各个领域得到了广泛应用。本文将评测两个由FunAudioLLM团队开发的多语言语音模型——[CosyVoice](https://github.com/FunAudioLLM/CosyVoice)和[SenseVoice](https://github.com/FunAudioLLM/SenseVoice),并结合阿里云开发者社区的相关资源,探讨其在实际应用中的表现。

CosyVoice评测

项目简介

CosyVoice 是一个多语言语音生成模型,提供了推理、训练和部署的全栈能力。该项目主要包括以下几个特性:

  • 多语言支持:能够生成多种语言的语音,包括中文、英文、日文、粤语和韩语等。
  • 多种推理模式:支持零样本推理、跨语言推理和指令推理等多种模式。
  • 完整的训练和部署支持:提供了从数据准备、模型训练到模型部署的全流程支持。

安装与使用

安装步骤

  1. 克隆项目仓库:

    git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
    cd CosyVoice
    git submodule update --init --recursive
    
  2. 创建并激活Conda环境:

    conda create -n cosyvoice python=3.8
    conda activate cosyvoice
    
  3. 安装依赖:

    conda install -y -c conda-forge pynini==2.1.5
    pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
    
  4. 下载预训练模型:

    from modelscope import snapshot_download
    snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
    snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
    snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
    snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
    

基本使用

  1. 零样本推理:

    from cosyvoice.cli.cosyvoice import CosyVoice
    from cosyvoice.utils.file_utils import load_wav
    import torchaudio
    
    cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
    prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
    output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物...', prompt_speech_16k)
    torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
    
  2. 跨语言推理:

    prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
    output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company...', prompt_speech_16k)
    torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)
    

评测总结

CosyVoice在多语言语音生成方面表现优异,尤其是在跨语言推理和零样本推理中,展现了强大的灵活性和准确性。安装和使用过程相对简单,预训练模型的提供也极大地方便了用户快速上手。

SenseVoice评测

项目简介

SenseVoice 是一个多语言语音理解模型,旨在提供高效、准确的语音理解能力。该项目的主要特点包括:

  • 多语言支持:覆盖多种语言的语音理解能力。
  • 高效推理:优化的推理速度和准确率。
  • 灵活部署:支持多种部署方式,适应不同的应用场景。

安装与使用

安装步骤

  1. 克隆项目仓库:

    git clone --recursive https://github.com/FunAudioLLM/SenseVoice.git
    cd SenseVoice
    git submodule update --init --recursive
    
  2. 创建并激活Conda环境:

    conda create -n sensevoice python=3.8
    conda activate sensevoice
    
  3. 安装依赖:

    pip install -r requirements.txt
    
  4. 下载预训练模型:

    from modelscope import snapshot_download
    snapshot_download('iic/SenseVoice-300M', local_dir='pretrained_models/SenseVoice-300M')
    

基本使用

  1. 推理示例:

    from sensevoice.cli.sensevoice import SenseVoice
    import torchaudio
    
    sensevoice = SenseVoice('pretrained_models/SenseVoice-300M')
    audio, sample_rate = torchaudio.load('input_audio.wav')
    result = sensevoice.inference(audio)
    print(result)
    

评测总结

SenseVoice在多语言语音理解方面表现出色,特别是在推理速度和准确率上有明显优势。项目的安装和使用也相对简单,预训练模型的提供使得用户可以快速实现语音理解功能。

总结

CosyVoice和SenseVoice作为FunAudioLLM团队的两大语音模型,分别在语音生成和语音理解领域展现了强大的能力。结合阿里云开发者社区提供的丰富资源,这两个模型在实际应用中具有广阔的前景。希望未来能够看到更多基于这两个模型的创新应用。

目录
相关文章
|
30天前
|
人工智能 JSON 自然语言处理
基于阿里云通义千问的AI模型应用开发指南
阿里云通义千问是阿里巴巴集团推出的多模态大语言模型平台,提供了丰富的API和接口,支持多种AI应用场景,如文本生成、图像生成和对话交互等。本文将详细介绍阿里云通义千问的产品功能,并展示如何使用其API来构建一个简单的AI应用,包括程序代码和具体操作流程,以帮助开发者快速上手。
456 3
|
6月前
|
并行计算 PyTorch 算法框架/工具
社区供稿 | 本地部署通义千问大模型做RAG验证
这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。
|
6月前
|
自然语言处理 JavaScript 前端开发
通义灵码是一款基于通义大模型的智能编码辅助工具
通义灵码是一款基于通义大模型的智能编码辅助工具
254 1
|
21天前
|
人工智能 边缘计算 自然语言处理
DistilQwen2:通义千问大模型的知识蒸馏实践
DistilQwen2 是基于 Qwen2大模型,通过知识蒸馏进行指令遵循效果增强的、参数较小的语言模型。本文将介绍DistilQwen2 的技术原理、效果评测,以及DistilQwen2 在阿里云人工智能平台 PAI 上的使用方法,和在各开源社区的下载使用教程。
|
6天前
|
物联网 Swift Python
基于qwen模型实现大模型应用探索-党务知识小助手
本项目基于qwen2-7b-instruct模型,采用LoRA技术,在党务知识数据集与通用数据集上进行微调,专为党务领域问答设计,涵盖党员教育等场景。通过数据准备、模型微调、推理测试及部署应用。
69 0
|
3月前
|
人工智能 内存技术
通义语音AI技术问题之预训练模型的推理与微调如何解决
通义语音AI技术问题之预训练模型的推理与微调如何解决
42 4
|
4月前
|
存储 人工智能 弹性计算
解决方案评测|通义万相AI绘画创作测评
解决方案评测|通义万相AI绘画创作测评
297 12
|
4月前
|
弹性计算 人工智能 自然语言处理
通义万相AIGC快速生成图像体验测评
通义万相AI绘画创作部署与体验。
|
4月前
|
自然语言处理 并行计算 Python
千问大模型对话
该段Python代码演示了如何使用`modelscope`库加载预训练的因果语言模型`Qwen2-1___5B-Instruct`到CUDA设备,并进行文本生成。首先,它定义了设备为`cuda`,然后加载模型和分词器。接着,设置了一个聊天情境并准备输入文本。通过调用`tokenizer.apply_chat_template`处理输入,然后将处理后的文本转化为模型输入张量并传入设备。使用`model.generate`方法生成新的文本,截取生成的输出并解码为人类可读的字符串。最后,打印出生成的响应。
136 6
|
4月前
|
人工智能 自然语言处理 小程序
阿里通义音频生成大模型 FunAudioLLM 开源!
声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。
下一篇
无影云桌面