CosyVoice实现声音复刻

简介: 这篇文章介绍了如何使用CosyVoice平台实现个性化的声音复刻,包括录制样本音频、上传处理以及生成定制化语音的全流程。

阿里发布了CosyVoice和SenseVoice一个是文本转语音,一个是语音转文本,不过与之前测试的ChatTTS不同的是,CosyVoice提供了声音复刻的功能,也就是上传或者录入一个人的音色,他可以学会并转化成你想要说的话,下面可以来实践一下。

因为这个项目非常大,也需要安装各种包,这里直接用docker运行整合包来搭建环境,整合包下载后是个tar格式,大概处理流程是:

导入镜像

docker load -i cosyvoice.tar

创建容器

docker run -d --name cosyvoice --gpus all -p 8000:8000 cosyvoice:1

启动服务

docker start cosyvoice

需要注意的是,如果没有nvidia的显卡,可能会运行出错,不过可以使用下面的命令启动他是使用CPU的方式进行处理的:

docker run -d --name cosyvoice -p 8000:8000 cosyvoice:1

下面就可以用docker运行部署了;因为这里映射的是8000端口,部署后,打开127.0.0.1:8000

页面可以看到提供四种模式,第一个是训练音色,第二个是3s极速复刻,第三个是跨语种复刻,第四个是自然语言复刻,这里我们选择第二种,并找一段声音上传上去,

这里一共有5个地方需要操作,第一个输入合成文本就是你想要音色模拟你说的内容,下面选择推理模式为3s极速复刻,第三个是需要上传一段音频文件,如果没有音频文件也可以选择右侧的录音,实时录一段就可以了,下面输入prompt文本是指录音的内容转成文本放进去,方便程序比对声音读的音色,全部完成后下面选择生成音频就可以等待生成了,生成时间根据GPU性能决定。

本想上传原语音与转化后对比,但是这里不支持mp3格式,不过大家可以试试,这是我有史以来用过最nice的语音复刻软件

相关文章
|
8月前
|
Web App开发 机器学习/深度学习 语音技术
在ModelScope-FunASR中,语音识别系统中的声音活动检测
在ModelScope-FunASR中,语音识别系统中的声音活动检测【4月更文挑战第3天】
339 1
|
7天前
|
数据采集 存储 Serverless
5 分钟复刻你的声音,一键实现 GPT-Sovits 模型部署
想象一下,只需简单几步操作,就能生成逼真的语音效果,无论是为客户服务还是为游戏角色配音,都能轻松实现。GPT-Sovits 模型,其高效的语音生成能力为实现自然、流畅的语音交互提供了强有力的技术支持。本文将详细介绍如何利用函数计算平台部署 GPT-Sovits 模型,以构建一个高效、可扩展的 AI 语音交互系统。通过这一部署方案,开发者和企业能够快速集成语音合成功能,实现从文本到语音的无缝转换,进而推动智能语音应用的创新和发展。
|
1月前
|
自然语言处理 搜索推荐 前端开发
语镜VocaMirror——基于sensevoice、cosyvoice和qwen模型实现与“自身声音”对话
语镜 VocaMirror 是一个创新的对话系统,灵感来源于汤姆猫游戏和亲人语音克隆项目,旨在让用户与自己的声音进行对话。系统融合了语音识别、自然语言处理及个性化语音合成技术,提供趣味互动、心理治疗辅助及多功能扩展等应用。用户可通过 Gradio 界面轻松使用,实现语音转文本、对话生成及个性化语音回复等功能。
120 4
语镜VocaMirror——基于sensevoice、cosyvoice和qwen模型实现与“自身声音”对话
|
3月前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
88 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
5月前
|
人工智能 文字识别 算法
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
87 4
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
【7月更文挑战第5天】字节跳动的Seed-TTS技术在语音合成领域实现重大突破,生成的语音与真人难辨真假。基于深度学习的模型能模拟多种情感、口音,适用于智能客服、有声读物等场景。尽管面临计算资源需求大、个别情况合成质量不稳及潜在伦理问题,该技术仍标志着语音合成的新高度。[论文链接](https://arxiv.org/abs/2406.02430)**
298 1
|
5月前
|
搜索推荐 算法 Linux
这款文本转语音(TTS)
【8月更文挑战第6天】Fish Speech是一款先进的开源文本转语音(TTS)工具,它能迅速将文字转换为流畅自然的语音,尤其适合镜头前感到紧张的人制作视频内容。Fish Speech支持中文、英文及日文等多种语言,可通过简单的原始语音样本快速克隆个性化声音。其架构设计高效,仅需4GB显存即可运行,采用Flash-Attn算法实现高性能语音合成。Fish Speech具备易用性,提供Web界面操作,并可在Linux与Windows系统上部署。用户可通过官网([https://fish.audio/zh-CN/](https://fish.audio/zh-CN/))直接体验其强大功能。
482 0
|
8月前
|
机器学习/深度学习 自然语言处理 语音技术
文字转语音
文字转语音
1639 1
|
机器学习/深度学习 数据采集 人工智能
本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2
之前我们[使用Bert-VITS2V2.0.2版本对现有的原神数据集进行了本地训练](https://v3u.cn/a_id_330),但如果克隆对象脱离了原神角色,我们就需要自己构建数据集了,事实上,深度学习模型的性能和泛化能力都依托于所使用的数据集的质量和多样性,本次我们在本地利用Bert-VITS2V2.0.2对霉霉讲中文的音色进行克隆实践。
本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2
|
人工智能 自然语言处理 算法