托管及使用专属智能语音模型CosyVoice

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
可观测可视化 Grafana 版,10个用户账号 1个月
简介: CosyVoice是一款先进的声音合成模型,支持声音克隆与情感控制等功能,在教育、客服、游戏等领域有广泛应用。本文详细介绍如何在阿里云Serverless平台上部署CosyVoice应用,比如使用函数计算平台快速搭建。并且提供API调用方法及本地调试步骤,同时还介绍如何通过挂载NAS实现持久化存储,以及更新模型和定制后端服务的方法。

声音的推理和克隆在很多领域都有广泛的应用,比如 儿童/成人教育、疗愈/陪伴、销售/客服、游戏NPC、车载通信,工/农业线下辅助等,CosyVoice 是一款优秀的声音合成模型,支持声音克隆,情感控制等诸多功能,效果体验极佳,然而对于很多普通用户和应用开发者而言,托管其专属模型,进行使用或者应用开发比较困难,今天分享一下,基于阿里云Serverless平台 函数计算,极速托管专属的CosyVoice 应用。并且我们提供了 API 调用方案以及镜像构建源码方便进行任意DIY。

CosyVoice 部署托管

Step1 访问阿里云函数计算控制台,打开应用中心

选择 CosyVoice 智能语音应用模板,进行部署

Step2 根据应用配置引导填写,点击“创建应用”

Step3 产品依赖确认,部署详细

点击后进行部署

进入部署

Step4 访问web界面

您可以直接在线体验 预置语音生成、定制语音生成、高级语音生成三个模块

API 调用

获取EndPoint

CosyVoice 部署完毕之后,可以进行API 调用。 首先是需要获取API 的 endpoint,这里有两个地址

临时域名地址(30天访问期)

Http 触发器地址(永久地址)

(注:http 触发器地址因安全限制直接访问无法看到web页面,但是可以通过http 访问api)

使用API Recorder 调试

通过 API  Recorder,仅需点击Web UI 页面即可获取访问API 的相关代码示例,非常方便。下面演示一下如何使用API Recorder 进行 API获取。

Step1 打开 API Recorder

Step2 回到Web UI 进行声音克隆访问(上传声音文件,点击生成音频)

Step3 查看调用记录和生成的API 示例代码

本地调试代码

以上生成的代码可以直接在本地安装调试,为了进一步方便实用,下面提供示例代码,完整的代码获取

声音推理

声音推理较为简单,复制以下代码(需要安装gradio_client),修改cosyvoice_endpoint地址即可,

from gradio_client import Client
import os
import shutil
cosyvoice_endpoint = "<endpoint>"
client = Client(cosyvoice_endpoint)
result = client.predict(
    _sound_radio="中文女",
    _synthetic_input_textbox="天天好心情,我们走的每一步,都是我们策略的一部分;你看到的所有一切,包括我此刻与你交谈,所做的一切,所说的每一句话,都有深远的含义。",
    _seed=0,
    api_name="/generate_audio"
)
# result 是返回的本地音频地址
# 把result 保存到当前的目录下
audio_filename = "preset.mp3"
shutil.copy(result, audio_filename)
# 删除原始的 音频
os.remove(result)

声音克隆

新建 custom.py文件,并复制这段代码(需要安装gradio_client)

import os
import shutil
from gradio_client import Client, file
cosyvoice_endpoint = "endpoint"
uploaded_voice_path = ""
client = Client(cosyvoice_endpoint)
result = client.predict(
  _recorded_audio1=file(f"{cap_cosyvoice_endpoint}file={uploaded_voice_path}"),
  _recorded_audio2=None,
  _prompt_input_textbox="今天的不开心就止于此吧,明天依旧光芒万丈哦",
  _language_radio="same",
  _synthetic_input_textbox="来来来,我们走的每一步,都是我们策略的一部分;你看到的所有一切,包括我此刻与你交谈,所做的一切,所说的每一句话,都有深远的含义。",
  _seed=0,
  _audio_input_type_radio="upload_audio",
  api_name="/generate_audio_1"
)
print(result)
# result 是返回的本地音频地址
# 把result 保存到当前的目录下
audio_filename = "custom.mp3"
shutil.copy(result, audio_filename)
# 删除原始的 音频
os.remove(result)

高级情感

from gradio_client import Client
client = Client("<endpoint>")
result = client.predict(
        _sound_radio="中文女",
        _synthetic_input_textbox="Hello!!",
        _seed=0,
        api_name="/generate_audio"
)
print(result)

补充

对于声音推理,由于Serverless 实例会轮转(比如无调用实例会被释放),无法持久化存储被克隆的声音,所以如果您希望持久化上传的克隆声音,使其能够提供长期的API服务,需要增加NAS 存储解决,函数计算挂载Nas 非常简单,如下示例。

挂载Nas

配置好之后获取NAS 文件路径

配置CosyVoicde 文件存储环境变量

之后重新使用 API Recorder 录制声音克隆API ,会发现 上传录制文件后的视频地址已经固定为NAS的地址了,接下来您便可以长久使用这个克隆的声音了。

如何更新CozyVoice 以及如何对后端服务修改定制

函数计算cosyvoice 应用模版同步社区的更新存在滞后性,如果您希望体验社区最新的模型效果,本方案提供了CozyVoice构建的完整代码,支持您进行更新

您可以更新代码工程,重新构建新的Docker 镜像,将Docker镜像上传至阿里云ACR服务

然后修改函数计算上的镜像配置即可。

注意,上述源码的CosyVoice-300M工程中不包含模型, 需要先将对应的模型下载到本地,然后构建镜像

cd CozyVoice-300M
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

还需要audioseal 文件,可以从魔搭创空间获取

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
目录
相关文章
|
人工智能 语音技术 云栖大会
阿里云发布智能语音自学习平台,零基础训练人工智能模型
业务人员甚至门卫大爷也能训练人工智能?曾经只出现科幻电影中的一幕真的发生了。7月18日,阿里巴巴机器智能技术实验室宣布在阿里云正式发布智能语音自学习平台公有云产品,突破性地提供一键式语音智能自助优化方案,使得语音识别优化不再依赖于语音供应商的专家服务,让不懂技术的人员从此也可以快速显著提升自己业务的识别准确率满足业务需求。
5152 0
|
10月前
|
机器学习/深度学习 搜索推荐 语音技术
智能语音识别技术在智能家居中的应用与挑战####
本文深入探讨了智能语音识别技术的基本原理、关键技术环节,以及其在智能家居领域的广泛应用现状。通过分析当前面临的主要挑战,如环境噪音干扰、方言及口音识别难题等,文章进一步展望了未来发展趋势,包括技术融合创新、个性化服务定制及安全隐私保护的加强。本文旨在为读者提供一个关于智能语音识别技术在智能家居中应用的全面视角,同时激发对该领域未来发展方向的思考。 ####
726 33
|
10月前
|
机器学习/深度学习 算法 人机交互
智能语音识别技术的最新进展与未来趋势####
【10月更文挑战第21天】 在当今这个信息爆炸的时代,人机交互方式正经历着前所未有的变革。本文深入探讨了智能语音识别技术的前沿动态,从深度学习模型的创新应用到跨语言、跨领域的适应性增强,揭示了该领域如何不断突破技术壁垒,提升用户体验的真实案例与数据支撑。通过对比分析当前主流算法的性能差异,本文旨在为研究者和开发者提供一幅清晰的技术演进蓝图,同时展望了多模态融合、情感识别等新兴方向的广阔前景。 ####
1055 7
|
10月前
|
机器学习/深度学习 存储 人工智能
智能语音识别技术的深度剖析与应用前景####
本文深入探讨了智能语音识别技术的技术原理、关键技术突破及广泛应用场景,通过具体实例展现了该技术如何深刻改变我们的日常生活和工作方式。文章还分析了当前面临的挑战与未来发展趋势,为读者提供了一幅全面而深入的智能语音识别技术图景。 ####
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境中的应用与挑战####
随着全球化的不断推进,跨语言交流的需求日益增长,智能语音识别技术成为连接不同语言文化的桥梁。本文旨在探索该技术在多语言环境中的应用现状、面临的挑战及未来发展趋势,通过深入分析技术瓶颈与创新策略,为促进全球无障碍沟通提供新视角。 ####
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术的现状与未来发展趋势####
本文旨在探讨智能语音识别技术的发展历程、当前主要技术特点、面临的挑战以及未来的发展趋势。通过综述该领域的最新研究进展和应用实例,本文为读者提供了一个关于智能语音识别技术的全面概览,并展望了其在未来可能的发展方向。 ####
|
11月前
|
存储 自然语言处理 搜索推荐
智能语音识别技术在医疗健康领域的深度应用与前景####
本文深入探讨了智能语音识别技术在医疗健康领域的多维度应用,从电子病历的高效录入到远程诊疗的无缝对接,再到患者教育与健康管理的个性化服务,展现了该技术如何显著提升医疗服务效率与质量。通过分析典型应用场景、挑战及解决方案,本文揭示了智能语音识别技术在推动医疗行业智能化转型中的关键作用,并展望了其未来发展趋势与广阔前景。 ####
|
11月前
|
机器学习/深度学习 算法 语音技术
智能语音识别技术在医疗健康领域的应用与挑战####
本文深入探讨了智能语音识别技术(Intelligent Speech Recognition, ISR)在医疗健康领域的现状、应用实例及面临的主要挑战。通过分析ISR技术的基本原理,结合其在电子病历记录、远程医疗咨询、患者监护及健康管理等方面的实际应用案例,揭示了该技术如何提升医疗服务效率、改善医患沟通并促进个性化医疗的发展。同时,文章也指出了数据隐私保护、方言与口音识别难题、技术准确性及用户接受度等关键挑战,为未来研究和技术优化提供了方向。 ####
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境下的挑战与优化策略###
随着全球化的加速推进,智能语音识别技术作为人机交互的关键一环,其跨语言适应性成为了研究热点。本文深入探讨了智能语音识别技术在多语言环境下面临的挑战,包括口音差异、词汇多样性、语法结构复杂性等,并提出了相应的优化策略。通过对比分析不同算法和技术路线,本文旨在为提升智能语音识别系统的跨语言性能提供理论依据和实践指导。 ###
|
11月前
|
人工智能 算法 语音技术
智能语音识别技术:原理、应用与挑战####
本文深入浅出地探讨了智能语音识别技术的基本原理,从声学模型到语言模型的构建过程,揭示了其背后的复杂算法。同时,文章详细阐述了该技术在智能家居、客户服务、无障碍技术等领域的广泛应用,并指出了当前面临的主要挑战,包括噪声干扰、方言差异及数据隐私等问题,为读者提供了对这一前沿技术领域的全面了解。 ####