CosyVoice评测
项目简介
CosyVoice 是一个多语言语音生成模型,提供了推理、训练和部署的全栈能力。该项目主要包括以下几个特性:
- 多语言支持:能够生成多种语言的语音,包括中文、英文、日文、粤语和韩语等。
- 多种推理模式:支持零样本推理、跨语言推理和指令推理等多种模式。
- 完整的训练和部署支持:提供了从数据准备、模型训练到模型部署的全流程支持。
安装与使用
安装步骤
克隆项目仓库:
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git cd CosyVoice git submodule update --init --recursive
创建并激活Conda环境:
conda create -n cosyvoice python=3.8 conda activate cosyvoice
安装依赖:
conda install -y -c conda-forge pynini==2.1.5 pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
下载预训练模型:
from modelscope import snapshot_download snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M') snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT') snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct') snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
基本使用
零样本推理:
from cosyvoice.cli.cosyvoice import CosyVoice from cosyvoice.utils.file_utils import load_wav import torchaudio cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M') prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000) output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物...', prompt_speech_16k) torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
跨语言推理:
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000) output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company...', prompt_speech_16k) torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)
评测总结
CosyVoice在多语言语音生成方面表现优异,尤其是在跨语言推理和零样本推理中,展现了强大的灵活性和准确性。安装和使用过程相对简单,预训练模型的提供也极大地方便了用户快速上手。
SenseVoice评测
项目简介
SenseVoice 是一个多语言语音理解模型,旨在提供高效、准确的语音理解能力。该项目的主要特点包括:
- 多语言支持:覆盖多种语言的语音理解能力。
- 高效推理:优化的推理速度和准确率。
- 灵活部署:支持多种部署方式,适应不同的应用场景。
安装与使用
安装步骤
克隆项目仓库:
git clone --recursive https://github.com/FunAudioLLM/SenseVoice.git cd SenseVoice git submodule update --init --recursive
创建并激活Conda环境:
conda create -n sensevoice python=3.8 conda activate sensevoice
安装依赖:
pip install -r requirements.txt
下载预训练模型:
from modelscope import snapshot_download snapshot_download('iic/SenseVoice-300M', local_dir='pretrained_models/SenseVoice-300M')
基本使用
推理示例:
from sensevoice.cli.sensevoice import SenseVoice import torchaudio sensevoice = SenseVoice('pretrained_models/SenseVoice-300M') audio, sample_rate = torchaudio.load('input_audio.wav') result = sensevoice.inference(audio) print(result)
评测总结
SenseVoice在多语言语音理解方面表现出色,特别是在推理速度和准确率上有明显优势。项目的安装和使用也相对简单,预训练模型的提供使得用户可以快速实现语音理解功能。
总结
CosyVoice和SenseVoice作为FunAudioLLM团队的两大语音模型,分别在语音生成和语音理解领域展现了强大的能力。结合阿里云开发者社区提供的丰富资源,这两个模型在实际应用中具有广阔的前景。希望未来能够看到更多基于这两个模型的创新应用。