使用Docker部署CosyVoice实现3s极速声音复刻-开发者社区-阿里云

CosyVoice实现声音复刻

2024-10-13 3370

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这篇文章介绍了如何使用CosyVoice平台实现个性化的声音复刻，包括录制样本音频、上传处理以及生成定制化语音的全流程。

阿里发布了CosyVoice和SenseVoice一个是文本转语音，一个是语音转文本，不过与之前测试的ChatTTS不同的是，CosyVoice提供了声音复刻的功能，也就是上传或者录入一个人的音色，他可以学会并转化成你想要说的话，下面可以来实践一下。

因为这个项目非常大，也需要安装各种包，这里直接用docker运行整合包来搭建环境，整合包下载后是个tar格式，大概处理流程是:

导入镜像

docker load -i cosyvoice.tar

创建容器

docker run -d --name cosyvoice --gpus all -p 8000:8000 cosyvoice:1

启动服务

docker start cosyvoice

需要注意的是，如果没有nvidia的显卡，可能会运行出错，不过可以使用下面的命令启动他是使用CPU的方式进行处理的：

docker run -d --name cosyvoice -p 8000:8000 cosyvoice:1

下面就可以用docker运行部署了；因为这里映射的是8000端口，部署后，打开127.0.0.1:8000

页面可以看到提供四种模式，第一个是训练音色，第二个是3s极速复刻，第三个是跨语种复刻，第四个是自然语言复刻，这里我们选择第二种，并找一段声音上传上去，

这里一共有5个地方需要操作，第一个输入合成文本就是你想要音色模拟你说的内容，下面选择推理模式为3s极速复刻，第三个是需要上传一段音频文件，如果没有音频文件也可以选择右侧的录音，实时录一段就可以了，下面输入prompt文本是指录音的内容转成文本放进去，方便程序比对声音读的音色，全部完成后下面选择生成音频就可以等待生成了，生成时间根据GPU性能决定。

本想上传原语音与转化后对比，但是这里不支持mp3格式，不过大家可以试试，这是我有史以来用过最nice的语音复刻软件

CosyVoice实现声音复刻

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

CosyVoice实现声音复刻

热门文章

最新文章

相关电子书