通义语音大模型评测:CosyVoice与SenseVoice

简介: 随着人工智能技术的不断发展,语音生成和理解模型在各个领域得到了广泛应用。本文将评测两个由FunAudioLLM团队开发的多语言语音模型——[CosyVoice](https://github.com/FunAudioLLM/CosyVoice)和[SenseVoice](https://github.com/FunAudioLLM/SenseVoice),并结合阿里云开发者社区的相关资源,探讨其在实际应用中的表现。

CosyVoice评测

项目简介

CosyVoice 是一个多语言语音生成模型,提供了推理、训练和部署的全栈能力。该项目主要包括以下几个特性:

  • 多语言支持:能够生成多种语言的语音,包括中文、英文、日文、粤语和韩语等。
  • 多种推理模式:支持零样本推理、跨语言推理和指令推理等多种模式。
  • 完整的训练和部署支持:提供了从数据准备、模型训练到模型部署的全流程支持。

安装与使用

安装步骤

  1. 克隆项目仓库:

    git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
    cd CosyVoice
    git submodule update --init --recursive
    
  2. 创建并激活Conda环境:

    conda create -n cosyvoice python=3.8
    conda activate cosyvoice
    
  3. 安装依赖:

    conda install -y -c conda-forge pynini==2.1.5
    pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
    
  4. 下载预训练模型:

    from modelscope import snapshot_download
    snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
    snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
    snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
    snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
    

基本使用

  1. 零样本推理:

    from cosyvoice.cli.cosyvoice import CosyVoice
    from cosyvoice.utils.file_utils import load_wav
    import torchaudio
    
    cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
    prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
    output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物...', prompt_speech_16k)
    torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
    
  2. 跨语言推理:

    prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
    output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company...', prompt_speech_16k)
    torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)
    

评测总结

CosyVoice在多语言语音生成方面表现优异,尤其是在跨语言推理和零样本推理中,展现了强大的灵活性和准确性。安装和使用过程相对简单,预训练模型的提供也极大地方便了用户快速上手。

SenseVoice评测

项目简介

SenseVoice 是一个多语言语音理解模型,旨在提供高效、准确的语音理解能力。该项目的主要特点包括:

  • 多语言支持:覆盖多种语言的语音理解能力。
  • 高效推理:优化的推理速度和准确率。
  • 灵活部署:支持多种部署方式,适应不同的应用场景。

安装与使用

安装步骤

  1. 克隆项目仓库:

    git clone --recursive https://github.com/FunAudioLLM/SenseVoice.git
    cd SenseVoice
    git submodule update --init --recursive
    
  2. 创建并激活Conda环境:

    conda create -n sensevoice python=3.8
    conda activate sensevoice
    
  3. 安装依赖:

    pip install -r requirements.txt
    
  4. 下载预训练模型:

    from modelscope import snapshot_download
    snapshot_download('iic/SenseVoice-300M', local_dir='pretrained_models/SenseVoice-300M')
    

基本使用

  1. 推理示例:

    from sensevoice.cli.sensevoice import SenseVoice
    import torchaudio
    
    sensevoice = SenseVoice('pretrained_models/SenseVoice-300M')
    audio, sample_rate = torchaudio.load('input_audio.wav')
    result = sensevoice.inference(audio)
    print(result)
    

评测总结

SenseVoice在多语言语音理解方面表现出色,特别是在推理速度和准确率上有明显优势。项目的安装和使用也相对简单,预训练模型的提供使得用户可以快速实现语音理解功能。

总结

CosyVoice和SenseVoice作为FunAudioLLM团队的两大语音模型,分别在语音生成和语音理解领域展现了强大的能力。结合阿里云开发者社区提供的丰富资源,这两个模型在实际应用中具有广阔的前景。希望未来能够看到更多基于这两个模型的创新应用。

目录
相关文章
|
20天前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
|
17天前
|
人工智能 IDE 搜索推荐
通义灵码2.5评测:从编程智能体到记忆感知的AI编码革命
通义灵码2.5版本更新带来了多项新功能,包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外,新增长期记忆与上下文感知功能,使开发更个性化和高效。尽管存在一些局限性,如复杂业务逻辑仍需人工干预,但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。
340 10
|
1月前
|
人工智能 自然语言处理 JavaScript
通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
通义灵码基于自然语言需求,快速生成完整Vue组件。例如,用Vue 2和JavaScript实现贪吃蛇游戏:包含键盘控制、得分系统、游戏结束判定与Canvas动态渲染。AI生成的代码符合规范,支持响应式数据与事件监听,还能进阶优化(如增加启停按钮、速度随分数提升)。传统需1小时的工作量,使用通义灵码仅10分钟完成,大幅提升开发效率。操作简单:安装插件、输入需求、运行项目即可实现功能。
126 4
 通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
|
18天前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
213 9
|
25天前
|
人工智能 自然语言处理 程序员
通义灵码 2.5 版发布上线,支持 Qwen3
示例中展示了通义灵码创建贪食蛇游戏的过程,包括代码优化、Bug修复和功能改进(如游戏结束后提示重新开始)。并通过AI总结了工具的核心能力,如实时续写、自然语言生码、单元测试生成等,帮助开发者高效编码并提升代码质量。
113 9
|
26天前
|
机器学习/深度学习 人工智能 关系型数据库
通义 CoGenAV 大模型音画同步感知,重新定义语音理解边界
CoGenAV 是一种创新的多模态语音理解模型,核心理念是实现“音画同步”的深度理解。通过学习 audio-visual-text 的时序对齐关系,构建更鲁棒、更通用的语音表征框架。它在视觉语音识别(VSR)、音视频语音识别(AVSR)、语音增强与分离(AVSE/AVSS)及主动说话人检测(ASD)等任务中表现出色,尤其在嘈杂环境下性能显著提升。仅需 223 小时数据训练即可媲美传统数千小时数据的效果,大幅降低训练成本。CoGenAV 支持主流平台如 GitHub、HuggingFace 和 ModelScope,助力多场景应用开发。
|
26天前
|
人工智能 安全 Android开发
手机也能跑通义Qwen3大模型,手把手教你部署!
全球开源模型冠军Qwen3与端到端全模态模型Qwen2.5-Omni现已成功在手机上跑通!借助MNN支持,适配Android、iOS及桌面端,实现低延迟、本地化、高安全的AI体验。用户可通过自定义Sampler设置、System Prompt和Max New Tokens调节模型输出风格与长度。