CosyVoice实现声音复刻

简介: 这篇文章介绍了如何使用CosyVoice平台实现个性化的声音复刻,包括录制样本音频、上传处理以及生成定制化语音的全流程。

阿里发布了CosyVoice和SenseVoice一个是文本转语音,一个是语音转文本,不过与之前测试的ChatTTS不同的是,CosyVoice提供了声音复刻的功能,也就是上传或者录入一个人的音色,他可以学会并转化成你想要说的话,下面可以来实践一下。

因为这个项目非常大,也需要安装各种包,这里直接用docker运行整合包来搭建环境,整合包下载后是个tar格式,大概处理流程是:

导入镜像

docker load -i cosyvoice.tar

创建容器

docker run -d --name cosyvoice --gpus all -p 8000:8000 cosyvoice:1

启动服务

docker start cosyvoice

需要注意的是,如果没有nvidia的显卡,可能会运行出错,不过可以使用下面的命令启动他是使用CPU的方式进行处理的:

docker run -d --name cosyvoice -p 8000:8000 cosyvoice:1

下面就可以用docker运行部署了;因为这里映射的是8000端口,部署后,打开127.0.0.1:8000

页面可以看到提供四种模式,第一个是训练音色,第二个是3s极速复刻,第三个是跨语种复刻,第四个是自然语言复刻,这里我们选择第二种,并找一段声音上传上去,

这里一共有5个地方需要操作,第一个输入合成文本就是你想要音色模拟你说的内容,下面选择推理模式为3s极速复刻,第三个是需要上传一段音频文件,如果没有音频文件也可以选择右侧的录音,实时录一段就可以了,下面输入prompt文本是指录音的内容转成文本放进去,方便程序比对声音读的音色,全部完成后下面选择生成音频就可以等待生成了,生成时间根据GPU性能决定。

本想上传原语音与转化后对比,但是这里不支持mp3格式,不过大家可以试试,这是我有史以来用过最nice的语音复刻软件

相关文章
|
1月前
|
数据可视化 JavaScript 图形学
Threejs实现音乐节奏表演
这篇文章详细介绍了如何使用Three.js结合音频频谱分析来创建一个随着音乐节奏变化的3D视觉表演,提供了实现音乐可视化效果的具体步骤和代码示例。
111 60
Threejs实现音乐节奏表演
|
3月前
黑神话:悟空中的音效设计与音乐制作
【8月更文第26天】在《黑神话:悟空》这款游戏中,音效和背景音乐是构建沉浸式游戏体验的重要组成部分。本文将探讨游戏音效和背景音乐的创作过程,以及它们如何增强游戏氛围。
394 0
|
5月前
|
图形学 开发者
【unity小技巧】两种办法解决FPS游戏枪或者人物穿墙穿模问题
【unity小技巧】两种办法解决FPS游戏枪或者人物穿墙穿模问题
239 0
|
11月前
|
人工智能 自然语言处理 算法
|
6月前
|
算法
音频作曲算法大全
音频作曲算法大全
56 0
|
人工智能 自然语言处理 语音技术
ChatGPT充当大脑,指挥AudioGPT解决语音、音乐、音效等任务
ChatGPT充当大脑,指挥AudioGPT解决语音、音乐、音效等任务
129 0
|
算法 图形学
还在被电影中吧爆炸的画面震撼?那你一定不要错过这款Unity的爆炸插件
Exploder是一个Unity3D插件,可以爆炸任何有网格的游戏对象。在游戏对象上tag设置为“Exploder”,就可以看到爆炸了!
|
机器学习/深度学习 人工智能 自然语言处理
现实版「柯南变声器」来了,搜狗变声让你声音随心变
声音秒变志玲姐姐,秒变「矮大紧」,秒变萝莉、正太,现在通通不是问题!
704 0
现实版「柯南变声器」来了,搜狗变声让你声音随心变
|
机器学习/深度学习 人工智能 自然语言处理
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
QQ 浏览器「听书」背后的 StyleTTS 让合成语音有了情感的温度。
306 0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
几个鸟叫的声音
http://files.cnblogs.com/jyk/111.rar
666 0
下一篇
无影云桌面