通义语音大模型评测:CosyVoice与SenseVoice

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
简介: 随着人工智能技术的不断发展,语音生成和理解模型在各个领域得到了广泛应用。本文将评测两个由FunAudioLLM团队开发的多语言语音模型——[CosyVoice](https://github.com/FunAudioLLM/CosyVoice)和[SenseVoice](https://github.com/FunAudioLLM/SenseVoice),并结合阿里云开发者社区的相关资源,探讨其在实际应用中的表现。

CosyVoice评测

项目简介

CosyVoice 是一个多语言语音生成模型,提供了推理、训练和部署的全栈能力。该项目主要包括以下几个特性:

  • 多语言支持:能够生成多种语言的语音,包括中文、英文、日文、粤语和韩语等。
  • 多种推理模式:支持零样本推理、跨语言推理和指令推理等多种模式。
  • 完整的训练和部署支持:提供了从数据准备、模型训练到模型部署的全流程支持。

安装与使用

安装步骤

  1. 克隆项目仓库:

    git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
    cd CosyVoice
    git submodule update --init --recursive
    
  2. 创建并激活Conda环境:

    conda create -n cosyvoice python=3.8
    conda activate cosyvoice
    
  3. 安装依赖:

    conda install -y -c conda-forge pynini==2.1.5
    pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
    
  4. 下载预训练模型:

    from modelscope import snapshot_download
    snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
    snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
    snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
    snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
    

基本使用

  1. 零样本推理:

    from cosyvoice.cli.cosyvoice import CosyVoice
    from cosyvoice.utils.file_utils import load_wav
    import torchaudio
    
    cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
    prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
    output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物...', prompt_speech_16k)
    torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
    
  2. 跨语言推理:

    prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
    output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company...', prompt_speech_16k)
    torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)
    

评测总结

CosyVoice在多语言语音生成方面表现优异,尤其是在跨语言推理和零样本推理中,展现了强大的灵活性和准确性。安装和使用过程相对简单,预训练模型的提供也极大地方便了用户快速上手。

SenseVoice评测

项目简介

SenseVoice 是一个多语言语音理解模型,旨在提供高效、准确的语音理解能力。该项目的主要特点包括:

  • 多语言支持:覆盖多种语言的语音理解能力。
  • 高效推理:优化的推理速度和准确率。
  • 灵活部署:支持多种部署方式,适应不同的应用场景。

安装与使用

安装步骤

  1. 克隆项目仓库:

    git clone --recursive https://github.com/FunAudioLLM/SenseVoice.git
    cd SenseVoice
    git submodule update --init --recursive
    
  2. 创建并激活Conda环境:

    conda create -n sensevoice python=3.8
    conda activate sensevoice
    
  3. 安装依赖:

    pip install -r requirements.txt
    
  4. 下载预训练模型:

    from modelscope import snapshot_download
    snapshot_download('iic/SenseVoice-300M', local_dir='pretrained_models/SenseVoice-300M')
    

基本使用

  1. 推理示例:

    from sensevoice.cli.sensevoice import SenseVoice
    import torchaudio
    
    sensevoice = SenseVoice('pretrained_models/SenseVoice-300M')
    audio, sample_rate = torchaudio.load('input_audio.wav')
    result = sensevoice.inference(audio)
    print(result)
    

评测总结

SenseVoice在多语言语音理解方面表现出色,特别是在推理速度和准确率上有明显优势。项目的安装和使用也相对简单,预训练模型的提供使得用户可以快速实现语音理解功能。

总结

CosyVoice和SenseVoice作为FunAudioLLM团队的两大语音模型,分别在语音生成和语音理解领域展现了强大的能力。结合阿里云开发者社区提供的丰富资源,这两个模型在实际应用中具有广阔的前景。希望未来能够看到更多基于这两个模型的创新应用。

目录
相关文章
|
4月前
|
并行计算 PyTorch 算法框架/工具
社区供稿 | 本地部署通义千问大模型做RAG验证
这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。
|
9月前
|
XML Java 测试技术
通义灵码与githubcopilot的对比评测
本文评测了通义灵码,与github copilot在一些代码编写能力上面的能力比较。 虽然github copilot要强很多,但灵码目前的能力也不算很弱,并且在一些小类上会做的更好一些。 值得试试看,也是免费的
52991 10
|
1月前
|
人工智能 算法
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
20 5
|
4月前
|
自然语言处理 JavaScript 前端开发
通义灵码是一款基于通义大模型的智能编码辅助工具
通义灵码是一款基于通义大模型的智能编码辅助工具
220 1
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
音频基座大模型FunAudioLLM评测
通义语音团队最新开源了音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。本文对这两种大模型进行整体的评测。
19 1
音频基座大模型FunAudioLLM评测
|
4天前
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
49 5
|
1月前
|
人工智能 内存技术
通义语音AI技术问题之预训练模型的推理与微调如何解决
通义语音AI技术问题之预训练模型的推理与微调如何解决
26 4
|
1月前
|
人工智能 UED
通义语音AI技术问题之预训练语言模型的主题分割效果的提升如何解决
通义语音AI技术问题之预训练语言模型的主题分割效果的提升如何解决
22 5
|
1月前
|
人工智能 语音技术
通义语音AI技术问题之Qwen-Audio对多任务预训练中的干扰问题如何解决
通义语音AI技术问题之Qwen-Audio对多任务预训练中的干扰问题如何解决
16 2
|
2月前
|
自然语言处理 并行计算 Python
千问大模型对话
该段Python代码演示了如何使用`modelscope`库加载预训练的因果语言模型`Qwen2-1___5B-Instruct`到CUDA设备,并进行文本生成。首先,它定义了设备为`cuda`,然后加载模型和分词器。接着,设置了一个聊天情境并准备输入文本。通过调用`tokenizer.apply_chat_template`处理输入,然后将处理后的文本转化为模型输入张量并传入设备。使用`model.generate`方法生成新的文本,截取生成的输出并解码为人类可读的字符串。最后,打印出生成的响应。
98 6