CosyVoice实现声音复刻

简介: 这篇文章介绍了如何使用CosyVoice平台实现个性化的声音复刻,包括录制样本音频、上传处理以及生成定制化语音的全流程。

阿里发布了CosyVoice和SenseVoice一个是文本转语音,一个是语音转文本,不过与之前测试的ChatTTS不同的是,CosyVoice提供了声音复刻的功能,也就是上传或者录入一个人的音色,他可以学会并转化成你想要说的话,下面可以来实践一下。

因为这个项目非常大,也需要安装各种包,这里直接用docker运行整合包来搭建环境,整合包下载后是个tar格式,大概处理流程是:

导入镜像

docker load -i cosyvoice.tar
AI 代码解读

创建容器

docker run -d --name cosyvoice --gpus all -p 8000:8000 cosyvoice:1
AI 代码解读

启动服务

docker start cosyvoice
AI 代码解读

需要注意的是,如果没有nvidia的显卡,可能会运行出错,不过可以使用下面的命令启动他是使用CPU的方式进行处理的:

docker run -d --name cosyvoice -p 8000:8000 cosyvoice:1
AI 代码解读

下面就可以用docker运行部署了;因为这里映射的是8000端口,部署后,打开127.0.0.1:8000

页面可以看到提供四种模式,第一个是训练音色,第二个是3s极速复刻,第三个是跨语种复刻,第四个是自然语言复刻,这里我们选择第二种,并找一段声音上传上去,

这里一共有5个地方需要操作,第一个输入合成文本就是你想要音色模拟你说的内容,下面选择推理模式为3s极速复刻,第三个是需要上传一段音频文件,如果没有音频文件也可以选择右侧的录音,实时录一段就可以了,下面输入prompt文本是指录音的内容转成文本放进去,方便程序比对声音读的音色,全部完成后下面选择生成音频就可以等待生成了,生成时间根据GPU性能决定。

本想上传原语音与转化后对比,但是这里不支持mp3格式,不过大家可以试试,这是我有史以来用过最nice的语音复刻软件

目录
打赏
0
6
6
2
74
分享
相关文章
比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
【2月更文挑战第13天】比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
178 3
比Sora更王炸,LTX Studio文本生成超25秒,视频自带背景音乐、转场等效果!
在ModelScope-FunASR中,语音识别系统中的声音活动检测
在ModelScope-FunASR中,语音识别系统中的声音活动检测【4月更文挑战第3天】
367 1
5 分钟复刻你的声音,一键实现 GPT-Sovits 模型部署
想象一下,只需简单几步操作,就能生成逼真的语音效果,无论是为客户服务还是为游戏角色配音,都能轻松实现。GPT-Sovits 模型,其高效的语音生成能力为实现自然、流畅的语音交互提供了强有力的技术支持。本文将详细介绍如何利用函数计算平台部署 GPT-Sovits 模型,以构建一个高效、可扩展的 AI 语音交互系统。通过这一部署方案,开发者和企业能够快速集成语音合成功能,实现从文本到语音的无缝转换,进而推动智能语音应用的创新和发展。
537 11
语镜VocaMirror——基于sensevoice、cosyvoice和qwen模型实现与“自身声音”对话
语镜 VocaMirror 是一个创新的对话系统,灵感来源于汤姆猫游戏和亲人语音克隆项目,旨在让用户与自己的声音进行对话。系统融合了语音识别、自然语言处理及个性化语音合成技术,提供趣味互动、心理治疗辅助及多功能扩展等应用。用户可通过 Gradio 界面轻松使用,实现语音转文本、对话生成及个性化语音回复等功能。
252 4
语镜VocaMirror——基于sensevoice、cosyvoice和qwen模型实现与“自身声音”对话
|
4月前
|
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
125 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
这款文本转语音(TTS)
【8月更文挑战第6天】Fish Speech是一款先进的开源文本转语音(TTS)工具,它能迅速将文字转换为流畅自然的语音,尤其适合镜头前感到紧张的人制作视频内容。Fish Speech支持中文、英文及日文等多种语言,可通过简单的原始语音样本快速克隆个性化声音。其架构设计高效,仅需4GB显存即可运行,采用Flash-Attn算法实现高性能语音合成。Fish Speech具备易用性,提供Web界面操作,并可在Linux与Windows系统上部署。用户可通过官网([https://fish.audio/zh-CN/](https://fish.audio/zh-CN/))直接体验其强大功能。
569 0
耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
【7月更文挑战第5天】字节跳动的Seed-TTS技术在语音合成领域实现重大突破,生成的语音与真人难辨真假。基于深度学习的模型能模拟多种情感、口音,适用于智能客服、有声读物等场景。尽管面临计算资源需求大、个别情况合成质量不稳及潜在伦理问题,该技术仍标志着语音合成的新高度。[论文链接](https://arxiv.org/abs/2406.02430)**
381 1
|
8月前
|
java实现视频和配音音频的合成
java实现视频和配音音频的合成
149 0
神器 | 文本转语音,直接可以合成多人多风格音频了!
为了适应更多的音频使用场景和需求,近期我们将文本转语音服务进行了升级,全新的功能将成为你配音工具的不二之选。
523 1
离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope
制作双语字幕的方案网上有很多,林林总总,不一而足。制作双语字幕的原理也极其简单,无非就是人声背景音分离、语音转文字、文字翻译,最后就是字幕文件的合并,但美中不足之处这些环节中需要接口api的参与,比如翻译字幕,那么有没有一种彻底离线的解决方案?让普通人也能一键制作双语字幕,成就一个人的字幕组?
离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等