零门槛玩转AI声音定制,3分钟即可复刻你的发音模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 零门槛玩转AI声音定制,3分钟即可复刻你的发音模型

以下文章来源于阿里语音AI ,作者达摩院语音实验室

你也来玩一玩个性化声音合成传送带:

https://t.tb.cn/_6UQ7fq1W8ijbXO1I4GmdQZ

提起个性化定制声音,或许大家并不陌生,许多平台会选择一些大家耳熟能详的明星,进行声音定制,并普遍应用在语音导航,文字播报,小说阅读等场景中。

这项技术来自文本到语音的服务,一般来说,使用AI合成效果上乘的人声需要专业播音员在录音棚里录制,且录制的数据量以1000句话起步,这种标准定制的流程,无论是对播音员、录制条件、录制数量和成本都提出了较高的要求。

Personal TTS,即个性化语音合成,是通过身边的一些常见录音设备(手机、电脑、录音笔等),录取目标说话人的少量声音片段后,构建出录音者的语音合成系统。相比于标准定制,个性化定制的技术难点在于,数据量有限(20句话)、数据质量差和标注等流程全自动化。PTTS的意义在于进一步降低语音合成的定制门槛,能够将语音合成定制推广到大众C端用户。

近年来,学术界有很多关于声音克隆的工作,论文陈述效果很好。考虑到落地应用场景的效果,达摩院以自研语音合成系统 KAN-TTS 的迁移学习能力为基础,设计了一套较为完善的个性化语音合成方案——用户只需要录制20句话,经过3分钟的训练,就能够获得一款效果尚佳的个性化声音。

image.png

该系统的三大亮点:

NO.1 数据自动化处理和标注 在用户录制完音频之后,我们只有 <文本,音频>,而语音合成需要一些额外的标注信息:韵律标注、音素时长标注。为了获得较好的标注信息,我们采用了一种融合了多种原子能力的全自动化处理和标注流程,包括,韵律预测、ASR、VAD 和语音增强等。通过测试集测试,该自动化流程产生的标注信息,在准确度的基础上满足个性化的需求。

NO.2 韵律建模SAMBERT声学模型 在整个链路中,和效果最相关的模块就是声学模型。在语音合成领域,类似FastSpeech的Parallel模型是目前的主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是,该类模型普遍存在一些效果和性能上的问题,例如,独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定等。

因此达摩院语音实验室设计了SAMBERT(一种基于Parallel结构的改良版TTS模型),它具有以下优点:

  1. Backbone采用Self-Attention-Mechanism(SAM),提升模型建模能力;
  2. Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律;
  3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度;
  4. Decoder部分采用PNCA AR-Decoder[@li2020robutrans],自然支持流式合成; 采用韵律建模 SAMBERT 之后,相比于 KAN-TTS 的39%,流式 Fastspeech 的0.8%,新版个性化语音合成的 badcase 降低到0.085%。

image.png

NO.3 基于说话人信息的个性化语音合成 如果需要进行迁移学习,那么需要先构建多说话人的声学模型,不同说话人是通过可训练的说话人编码(speaker embedding)进行区分的。给定新的一个说话人,一般通过随机初始化一个 speaker embedding,然后再基于这个说话人的数据进行更新(见下图说话人空间1)。对于个性化语音合成来说,发音人的数据量比较少,学习难度很大,最终合成声音的相似度就无法保证。 为了解决这个问题,我们采用说话人信息来表示每个说话人,以少量说话人数据初始化的 speaker embding 距离目标说话人更近(见下图说话人空间2),学习难度小,此时合成声音的相似度就比较高。采用基于说话人信息的个性化语音合成,使得在20句条件下,依旧能够有较好的相似度。  

image.png


▎Future work 结合了数据自动化处理和标注、韵律建模 SAMBERT 声学模型和基于说话人信息的 Personal TTS 已上线ModelScope创空间。https://modelscope.cn/studios/damo/personal_tts/summary

Personal TTS 作为一种 low resource TTS,在数据资源受限的情况下以期达到接近高质量录音的合成效果,后续达摩院将会结合大模型训练技术与真人化 TTS,打造更低资源占用,合成表现力更优的个性化语音合成系统。

References:

[1] Devlin J , Chang M W , Lee K , et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.

[2] Kong J , Kim J , Bae J . HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis[J]. 2020.

[3] Li N , Liu Y , Wu Y , et al. RobuTrans: A Robust Transformer-Based Text-to-Speech Model[C]// National Conference on Artificial Intelligence. Association for the Advancement of Artificial Intelligence (AAAI), 2020.

相关文章
|
2月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
1704 120
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1466 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
272 120
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
599 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
3月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
348 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
712 8
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
423 29
|
3月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
836 43
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
483 31

热门文章

最新文章