AI 克隆声音,只需 3 分钟(附最全教程)

本文涉及的产品
简介: 文章介绍了GPT-Sovits,一个开源的生成式语音模型,因其在声音克隆上的高质量和简易性而受到关注。阿里云函数计算(Function Compute)提供了一个快速托管GPT-Sovits的方法,让用户无需管理服务器即可体验和部署该模型。通过函数计算,用户可以便捷地搭建基于GPT-Sovits的文本到语音服务,并享受到按需付费和弹性扩展的云服务优势。此外,文章还列举了GPT-Sovits在教育、游戏、新能源等多个领域的应用场景,并提供了详细的步骤指导,帮助用户在阿里云上部署和体验GPT-Sovits模型。

作者:寒斜

继生成式文本大模型 Chatgpt,生成式图片 Stablediffusion 之后生成式语音 Text To Speech 在开源社区也出现了一匹黑马,就是 GPT-Sovits[1]


之所以说他是黑马,让人觉得惊艳,是因为在语音效果克隆上做的足够真实和简单,只需要小样本的声音数据源,就可以实现高度相似的的仿真效果,也正是因为足够简单和好的效果,GPT-Sovits 的社区也异常火爆,github 的 star 数迅速飙升,目前已达 27.2K。


然而,无论是 C 端的内容生产者,想要使用进行内容生产,还是 B 端用户做商业化落地,部署这套 GPT-Sovits 软件都需要面临一些技术挑战,今天我们就来给大家介绍一下,如何通过阿里云函数计算快速托管 GPT-Sovits 来解决这些挑战。

image.png

有奖体验正在进行中

声音也能被完美复制!用 AI 实现声音克隆,让喜欢的声音喊出动画片经典台词。函数计算 FC 一键部署 GPT-Sovits 语音生成模型,最高赢小米蓝牙音响礼!立即参与:https://developer.aliyun.com/topic/june/fcnas


应用场景


在进行 GPT-Sovits 的实践之前,为了能够进一步说明他的价值,我们先来聊聊关于他的应用场景,更确切的来说是生成式语音的应用场景:


  • 教育:在教育场景下对声音的诉求尤其重要,对于学生而言,有感情色彩的交流,价值远大于纯文本的交换,个人教育比如英语培训也是跟语音强相关的。
  • 游戏娱乐:游戏娱乐场景就更加明确,个性化的声音是吸引人的关键因素。
  • 新能源:在车载系统,导航里,希望实时对话查询目的地相关的信息是有刚性需求的,比如使用高德导航,正在路上开车的时候,通过实时对话。
  • 新媒体:在数字人直播场景下,构建差异性专业的声音是直播效果好坏的关键。
  • 农业:比如农业智能化,技术人员在田间工作的时候,打字是一定没有语音交互方便的。
  • 机器人:机器人要有耳朵和嘴巴,需要声音的输出。


以上的场景都是跟 TTS 强相关的,或者说 TTS 作为核心的基础能力被使用,当然构建完整效果还需要更多工程化的实现和其他基础模型,后续我们再展开讲讲。


动手部署一个 AI 克隆大模型

通过函数计算部署 GPT-Sovits 模型的好处有两个:


1. 无需关心 GPU 服务器维护和环境配置,即可快速部署和体验模型。

2. 可以充分利用函数计算按量付费,弹性伸缩等优势,高效地为用户提供基于 GPT-Sovits 模型的文本到语音生成服务。


技术架构概览

image.png

本方案的技术架构包括以下基础设施和云服务:


  • 函数计算:用于提供 GPT-Sovits 模型的应用服务。
  • 文件存储 NAS:用于存放预训练的 GPT-Sovits 模型。
  • 专有网络 VPC:用于配置专有网络,方便函数计算访问文件存储 NAS。


🔔 重要:

1. 阿里云不对第三方模型的合法性、安全性、准确性进行任何保证,阿里云不对由此引发的任何损害承担责任。

2. 您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规,并就使用第三方模型的合法性、合规性自行承担相关责任。


部署 GPT-Sovits模型

1. 登录函数计算 3.0 控制台[2]

2. 请确认访问的控制台是函数计算 3.0,否则您需要在右上角单击体验函数计算 3.0

image.png

3. 在左侧导航栏,单击应用

4.(可选)在应用页面,单击创建应用

🔔 说明:如果您之前未使用过应用中心,请跳过本步骤,可直接进入下一步。

image.png

5. 在应用页面,选择人工智能>语音克隆生成 GPT-SoVITS,单击立即创建

image.png

6. 在创建应用页面,部署类型选择直接部署角色名称请确认所需要的权限均已获取(若缺失权限请按照页面引导进行操作),服务状态请确认函数计算 FC 和文件存储 NAS 已开通,其他配置保持默认即可,然后单击创建应用

image.png

7. 在活动应用创建提醒对话框中,选中函数计算 FC 和文件存储 NAS 两个收费项,选中我已经了解上面的内容,并同意上述描述,单击同意并进行部署

image.png

8. 等待约 1 分钟,部署状态变为部署成功,表示应用部署成功,并生成访问域名,单击访问域名后的链接开始体验应用。

***.devsapp.net 域名是 CNCF SandBox 项目 Serverless Devs 社区所提供,仅供学习和测试使用,不可用于任何生产使用;社区会对该域名进行不定期地拨测,并在域名下发 30 天后进行回收,强烈建议您绑定自定义域名以获得更好的使用体验。

image.png


快速体验

部署完成后,您可以使用已经准备好的 DEMO 声音样例,进行声音的合成和体验。


我们准备了一些童年经典动画片的台词,您可以合成试试:


  • 既然你诚心诚意的发问了,我们就大发慈悲的告诉你,为了防止世界被破坏,为了守护世界的和平,贯彻爱与真实的邪恶,可爱又迷人的反派角色,武藏、小次郎!我们是穿梭在银河的火箭队,白洞,白色的明天在等着我们!——《小精灵》
  • 成为全国第一是我从小的梦想,我不会放弃,这点小伤根本不能让我放弃。——《灌篮高手》
  • 舒克舒克舒克舒克开飞机的舒克,贝塔贝塔贝塔贝塔开坦克的贝塔。——《舒克和贝塔》

合成操作步骤

1. 选择默认语音模板,输入需要生成的文本,单击合成语音

image.png

2. 等待语音合成之后,可以单击播放。

image.png

声音训练

您可以通过声音源文件微调 GPT-Sovits 大模型,生成您期望的声音。在微调训练过程中,训练步骤的所有中间产物将置于 NAS 的 output 文件夹下。训练将使用默认的 UVR5 和 ASR 模型。若需要使用其他的 UVR5 和 ASR 模型,可根据官方 README[3]下载,并分别置于 NAS 的 tools/asr/models 和 tools/uvr5/uvr5_weights 目录下。


1. 数据预处理。准备一个较长的您需要克隆的原始声音,单击数据预处理,输入您需要上传的语音文件,单击开始数据预处理

image.png

2. 微调文本。单击训练语音文本校对,调整原始文本的内容。

image.png

3. 开始训练,单击模型微调,开启 SoVITS 训练和 GPT 训练。训练后的模型将存储在 NAS 下的 GPT_weights 和 SoVITS_weights 文件夹内。

image.png

4. 训练完之后,在语音克隆&推流页签,刷新和选择自己训练的模型,再体验合成语音。


如果您需要了解更多,请使用钉钉进入“阿里函数计算官网客户 2 群”(群号:64970014484)。


相关链接:

[1] GPT-Sovits

https://github.com/RVC-Boss/GPT-SoVITS

[2] 函数计算 3.0 控制台

https://fcnext.console.aliyun.com/

[3] 官方 README

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

相关实践学习
基于函数计算快速搭建Hexo博客系统
本场景介绍如何使用阿里云函数计算服务命令行工具快速搭建一个Hexo博客。
相关文章
|
1月前
|
人工智能 运维 关系型数据库
媒体声音|PolarDB再升级:欢迎来到云数据库 x AI新时代
让个人开发者和企业用户都可以像“搭积木”一样开发和管理数据库
媒体声音|PolarDB再升级:欢迎来到云数据库 x AI新时代
|
1月前
|
机器学习/深度学习 人工智能 运维
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(二)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
82 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(一)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
118 1
|
11天前
|
人工智能 API 语音技术
MoneyPrinterPlus:AI自动短视频生成工具,详细使用教程
详细介绍如何使用MoneyPrinterPlus:AI自动短视频生成工具,一键批量生成各类短视频。一键混剪短视频。
MoneyPrinterPlus:AI自动短视频生成工具,详细使用教程
|
10天前
|
机器学习/深度学习 人工智能 数据挖掘
LREC 2024:汪汪to Vector!密歇根博士生用AI解码狗的声音
【6月更文挑战第18天】在LREC 2024会议上,密歇根大学博士生展示了如何用AI解码狗叫声。研究团队应用Wav2Vec2模型,原本用于人类语音识别,来分类狗的叫声,包括情绪、品种、性别和上下文。实验显示,模型准确度提升超20%,但研究尚局限于特定品种,且依赖标注数据。[链接:https://arxiv.org/pdf/2404.18739](https://arxiv.org/pdf/2404.18739)
28 1
|
1月前
|
人工智能 决策智能 C++
【AI Agent教程】【MetaGPT】案例拆解:使用MetaGPT实现“狼人杀“游戏(1)- 整体框架解析
【AI Agent教程】【MetaGPT】案例拆解:使用MetaGPT实现“狼人杀“游戏(1)- 整体框架解析
282 1
|
1月前
|
存储 人工智能 NoSQL
【AI Agent教程】【MetaGPT】由易到难,深入源码:看MetaGPT的长短时记忆如何实现
【AI Agent教程】【MetaGPT】由易到难,深入源码:看MetaGPT的长短时记忆如何实现
109 0
|
1月前
|
人工智能 机器人 Linux
超级炫酷的AI绘图工具—MidJourney入门使用教程
超级炫酷的AI绘图工具—MidJourney入门使用教程
|
1月前
|
人工智能 缓存 自然语言处理
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
455 1

热门文章

最新文章