零门槛玩转AI声音定制,3分钟即可复刻你的发音模型

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 零门槛玩转AI声音定制,3分钟即可复刻你的发音模型

提起个性化定制声音,或许大家并不陌生,许多平台会选择一些大家耳熟能详的明星,进行声音定制,并普遍应用在语音导航,文字播报,小说阅读等场景中。

这项技术来自文本到语音的服务,一般来说,使用AI合成效果上乘的人声需要专业播音员在录音棚里录制,且录制的数据量以1000句话起步,这种标准定制的流程,无论是对播音员、录制条件、录制数量和成本都提出了较高的要求。

Personal TTS,即个性化语音合成,是通过身边的一些常见录音设备(手机、电脑、录音笔等),录取目标说话人的少量声音片段后,构建出录音者的语音合成系统。相比于标准定制,个性化定制的技术难点在于,数据量有限(20句话)、数据质量差和标注等流程全自动化。PTTS的意义在于进一步降低语音合成的定制门槛,能够将语音合成定制推广到大众C端用户。

近年来,学术界有很多关于声音克隆的工作,论文陈述效果很好。考虑到落地应用场景的效果,达摩院以自研语音合成系统 KAN-TTS 的迁移学习能力为基础,设计了一套较为完善的个性化语音合成方案——用户只需要录制20句话,经过3分钟的训练,就能够获得一款效果尚佳的个性化声音。

该系统的三大亮点:NO.1 数据自动化处理和标注在用户录制完音频之后,我们只有 <文本,音频>,而语音合成需要一些额外的标注信息:韵律标注、音素时长标注。为了获得较好的标注信息,我们采用了一种融合了多种原子能力的全自动化处理和标注流程,包括,韵律预测、ASR、VAD 和语音增强等。通过测试集测试,该自动化流程产生的标注信息,在准确度的基础上满足个性化的需求。

达摩院已在modelscope上发布PTTS_Autolabel工具,降低数据标注门槛,使开发者更便捷的定制个性化语音合成模型:

https://modelscope.cn/models/damo/speech_ptts_autolabel_16k

NO.2 韵律建模SAMBERT声学模型

在整个链路中,和效果最相关的模块就是声学模型。在语音合成领域,类似FastSpeech的Parallel模型是目前的主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是,该类模型普遍存在一些效果和性能上的问题,例如,独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定等。

因此达摩院语音实验室设计了SAMBERT(一种基于Parallel结构的改良版TTS模型),它具有以下优点:

1. Backbone采用Self-Attention-Mechanism(SAM),提升模型建模能力;
2. Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律;
3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度;
4. Decoder部分采用PNCA AR-Decoder[@li2020robutrans],自然支持流式合成;

采用韵律建模 SAMBERT 之后,相比于 KAN-TTS 的39%,流式 Fastspeech 的0.8%,新版个性化语音合成的 badcase 降低到0.085%。


NO.3 基于说话人信息的个性化语音合成如果需要进行迁移学习,那么需要先构建多说话人的声学模型,不同说话人是通过可训练的说话人编码(speaker embedding)进行区分的。给定新的一个说话人,一般通过随机初始化一个 speaker embedding,然后再基于这个说话人的数据进行更新(见下图说话人空间1)。对于个性化语音合成来说,发音人的数据量比较少,学习难度很大,最终合成声音的相似度就无法保证。为了解决这个问题,我们采用说话人信息来表示每个说话人,以少量说话人数据初始化的 speaker embding 距离目标说话人更近(见下图说话人空间2),学习难度小,此时合成声音的相似度就比较高。采用基于说话人信息的个性化语音合成,使得在20句条件下,依旧能够有较好的相似度。>> Demo1录音:一位女士的录音原声音频:00:0000:01

>> 合成效果:

属于这位女士的合成语音效果试听音频:00:0000:10


>> Demo2录音:一位男士的录音原声音频:00:0000:03

>> 合成效果:属于这位男士的合成语音效果试听音频:00:0000:05



Future work

结合了数据自动化处理和标注、韵律建模 SAMBERT 声学模型和基于说话人信息的 Personal TTS 上线ModelScope创空间

Personal TTS 作为一种 low resource TTS,在数据资源受限的情况下以期达到接近高质量录音的合成效果,后续达摩院将会结合大模型训练技术与真人化 TTS,打造更低资源占用,合成表现力更优的个性化语音合成系统。

References:

[1] Devlin J ,  Chang M W ,  Lee K , et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].  2018.

[2] Kong J ,  Kim J ,  Bae J . HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis[J].  2020.

[3] Li N ,  Liu Y ,  Wu Y , et al. RobuTrans: A Robust Transformer-Based Text-to-Speech Model[C]// National Conference on Artificial Intelligence. Association for the Advancement of Artificial Intelligence (AAAI), 2020.


目录
打赏
0
0
0
0
1028
分享
相关文章
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
本文系统对比了扩散模型与Flow Matching两种生成模型技术。扩散模型通过逐步添加噪声再逆转过程生成数据,类比为沙堡的侵蚀与重建;Flow Matching构建分布间连续路径的速度场,如同矢量导航系统。两者在数学原理、训练动态及应用上各有优劣:扩散模型适合复杂数据,Flow Matching采样效率更高。文章结合实例解析两者的差异与联系,并探讨其在图像、音频等领域的实际应用,为生成建模提供了全面视角。
73 1
TripoSF:3D建模内存暴降80%!VAST AI新一代模型细节狂飙82%
TripoSF 是 VAST AI 推出的新一代 3D 基础模型,采用创新的 SparseFlex 表示方法,支持 1024³ 高分辨率建模,内存占用降低 82%,在细节捕捉和复杂结构处理上表现优异。
39 10
TripoSF:3D建模内存暴降80%!VAST AI新一代模型细节狂飙82%
模型即产品:万字详解RL驱动的AI Agent模型如何巨震AI行业范式
未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)。像 Manus 这样基于「预先编排好的提示词与工具路径」构成的工作流智能体,短期或许表现不错,但长期必然遇到瓶颈。这种「提示驱动」的方式无法扩展,也无法真正处理那些需要长期规划、多步骤推理的复杂任务。下一代真正的LLM智能体,则是通过「强化学习(RL)与推理(Reasoning)的结合」来实现的。
40 10
模型即产品:万字详解RL驱动的AI Agent模型如何巨震AI行业范式
Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则
Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列,具备物理常识理解和具身推理能力,支持视频输入和长链思考,可应用于机器人、自动驾驶等场景。
31 8
Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
27 6
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
72 8
17.1K star!两小时就能训练出专属与自己的个性化小模型,这个开源项目让AI触手可及!
🔥「只需一张消费级显卡,2小时完成26M参数GPT训练!」 🌟「从零构建中文大模型的最佳实践指南」 🚀「兼容OpenAI API,轻松接入各类AI应用平台」
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
41 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展

热门文章

最新文章