《技术揭秘》KAN-TTS精品人声定制产品介绍

简介: TTS(Text-To-Speech 语音合成) 是AI领域一颗小而美的“珍珠”,有了它,才让智能应用和智能硬件长出“嘴巴”活起来。作为语音解决方案的发声环节,它既可以像你现实中常见到的——主持人播报新闻、教师授课、明星导航。也可以定制特色人声,用或奇趣、或软萌、或激越的声音来读小说,朗诵诗歌,解说视频等等。本文将为大家介绍基于阿里最新 KAN-TTS语音合成技术的精品人声定制产品。
来源 阿里语音AI 公众号

TTS(Text-To-Speech 语音合成) 是AI领域一颗小而美的“珍珠”,有了它,才让智能应用和智能硬件长出“嘴巴”活起来。作为语音解决方案的发声环节,它既可以像你现实中常见到的——主持人播报新闻、教师授课、明星导航。也可以定制特色人声,用或奇趣、或软萌、或激越的声音来读小说,朗诵诗歌,解说视频等等。本文将为大家介绍基于阿里最新 KAN-TTS语音合成技术的精品人声定制产品。

什么是语音合成?语音合成就是将文字转换成一段自然流畅语音的技术。目前,语音合成技术在泛娱乐、教育及涉及人机交互业务领域有比较广泛的应用。常见于语音导航、语音助手、电话客服;影视、游戏的配音、有声阅读等等。不同的应用场景期望呈现的人声各不相同,人声模型定制产品应运而生。所谓人声模型定制,就是通过语音合成技术,定制不同性别、年龄、风格、情绪的人声模型以满足不同业务和场景的需要。

从2010年deep learning技术引入到语音识别领域后,对推动语音技术发展起到了重要作用。但在TTS方向一直应用比较缓慢。直到2016年、2017年,随着Google的WaveNet、Tacotron和MILA的Char2Wav的提出,才将deep learning的强大能力赋予整个TTS方向。从音质、表现力和建模难度几个方面都取得显著超越。最近两年,学术界开始将第一流的成果带入到实际产品中,随之而来的,就是TTS商业化应用的飞速发展。例如Google Cloud在2018年上线了基于TPU的WaveNet产品方案,Microsoft Azure在2018年上线了基于GPU的全Neural产品方案。阿里云也在2018年上线了全Neural产品方案,并且考虑到实际客户和业务的扩展需求,历经大量的优化后,该方案是目前业内唯一的完全基于CPU的全Neural产品化方案。

更新更好的技术上线,同为阿里旗下的阿里巴巴集团客服和蚂蚁客服理所当然成为首批客户,两家客户无论业务量还是技术要求均远高于业界平均水平,这也从另外一个侧面证明阿里最新KAN-TTS技术框架的实际应用水平。2019年,天猫精灵上线的个性化语音订制服务也出自KAN-TTS,它可以让父母用手机录10分钟语音数据定制自己的声音,合成故事给孩子听。

除了阿里集团内部采购应用,阿里云在2019年对外推出了基于KAN-TTS的快速低成本的新一代人声模型定制服务,成功进驻第一财经移动端,根据用户提供的少量财经新闻主播数据,定制了一款高表现力合成声音,从而可以在第一财经APP上为用户提供高体验的新闻朗读效果。

随着技术水平的进步和商业化应用的推进,阿里基于KAN-TTS技术框架的人声模型定制服务优势进一步凸显。通常来说,市场对产品的通用要求,一是价廉,一是质优,KAN-TTS下的人声模型定制产品优势恰在于此。

1.更低的成本。在传统人声模型定制的时候,由于受限于技术框架,整个定制需要的数据量是2万句话(20小时)左右。按照人声数据录制的高标准要求,2万句话往往对应着半年以上的录音周期,需要发音人连续不断的进行高质量高可靠性的录音工作。这中间需要持续支付录音人、录音棚、录音师、数据处理等各项费用。而且因为录音周期过长,会增加定制项目的风险。比如发音人因感冒发烧等状况会直接影响嗓子的发挥,比如录音棚因故装修等等。基于KAN-TTS强大的模型结构以及成百上千个发音人的数据,使得我们可以利用更少量的数据构建效果更好的TTS声音。同时,我们开发了一套语料选取工具,可以做到用尽量少的数据覆盖尽量全的场景,进一步降低了录音数据量。

image.png

上图显示了基于KAN-TTS框架下,不同数据量所带来的定制效果。可以看出,即便是在2小时(2000句)以下的数据量时,基于KAN-TTS定制也可以取得不错的定制效果,和10小时差距不大,明显超过95%和真人录音接近程度。相对于传统定制而言,基于KAN-TTS的定制可以将数据量缩小到之前的十分之一,同时,定制周期也会从之前的半年以上缩短到一个月左右。

2. 更高的表现力。传统人声模型定制语音表现比较生硬单一,很难调试出适应不同场景、需求、有个性、有特色的语音产品。而基于KAN-TTS技术的人声模型定制产品恰恰在这一方面表现突出。它能够根据需求风格灵活定制更适合场景需求的产品。比如新闻产品要求发音准确、饱满、正规;客服则要亲切自然,注重交流,有时带点口音更有亲切感。KAN-TTS技术能够更好的掌握每个人语音中的独有特质,合成独属于你的特色语音,满足个性化需求。

阿里云精品人声定制产品在最新的KAN-TTS技术加持下,持续挖掘不同应用场景下人声的特点,沉淀出一套小数据量定制高音质、高表现力人声模型的产品能力。目前我们已在新闻播报、小说阅读、智能硬件等多场景实现了产品落地。更多案例详见官网。(https://ai.aliyun.com/nls/customtts )

image.png

最后,语音合成产品更高阶将通往何处?

从合成技术角度。追求的当然是更接近真人的音效、更细腻的音质、更自然的语音语调和更高的场景适配度。就目前来说,在KAN-TTS技术框架下定制的人声模型,在这四个方面均有长足进步。

从应用门槛角度。目前大部分精品人声模型定制的录音采集工作依然要在专业的录音棚,使用专业的录音设备,在专业的录音指导下完成。如何能降低录音的门槛,让普通人可以在普通环境,使用普通设备完成录音采集,并可以保证采集的录音满足定制人声模型的需求,是让语音合成技术普惠的下一个努力目标。

从应用场景角度。随着应用日渐普及,用户对于语音合成的声音已不再满足于亲切、自然的发音,拥有个性化的声音正在成为消费者购买时占比逐渐增加的参考维度。随着技术的提高,市场需求的发展,个性化TTS、情感TTS会在各细分场景得到更大的应用,比如知识付费、明星IP、智能硬件、实体/虚拟机器人等。对于那些拥有大量文本内容,例如书籍、UGC等和拥有自己的音频内容,例如强IP或者IP类渠道的客户来说,语音合成或许是最适合他们的选择。KAN-TTS技术框架下定制的人声模型产品不但具有质优高效,成本低廉的优势,而且合作方式更为灵活,可以提供TTS的云/本地服务,还可以进行IP人声定制或合作共建声优工厂。

阿里语音在追求世界一流技术的同时持续为客户提供精品人声定制服务,致力实现科技创新和科技应用成果转化的双赢,更好的满足客户个性化需求!

image.png

相关文章
|
人工智能 自然语言处理 异构计算
Stability AI发布基于稳定扩散的音频生成模型Stable Audio
近日Stability AI推出了一款名为Stable Audio的尖端生成模型,该模型可以根据用户提供的文本提示来创建音乐。
149 1
|
1月前
|
人工智能 数据处理 语音技术
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
通义语音AI技术问题之查看KAN-TTS在ModelScope上的模型列表如何解决
33 10
|
1月前
|
自然语言处理 测试技术 API
音频基座大模型FunAudioLLM
音频基座大模型FunAudioLLM
59 9
|
1月前
|
人工智能 语音技术
通义语音AI技术问题之语义VAD模型对于传统VAD模型的问题如何解决
通义语音AI技术问题之语义VAD模型对于传统VAD模型的问题如何解决
32 0
|
1月前
|
搜索推荐 算法 Linux
这款文本转语音(TTS)
【8月更文挑战第6天】Fish Speech是一款先进的开源文本转语音(TTS)工具,它能迅速将文字转换为流畅自然的语音,尤其适合镜头前感到紧张的人制作视频内容。Fish Speech支持中文、英文及日文等多种语言,可通过简单的原始语音样本快速克隆个性化声音。其架构设计高效,仅需4GB显存即可运行,采用Flash-Attn算法实现高性能语音合成。Fish Speech具备易用性,提供Web界面操作,并可在Linux与Windows系统上部署。用户可通过官网([https://fish.audio/zh-CN/](https://fish.audio/zh-CN/))直接体验其强大功能。
97 0
|
4月前
|
人工智能 自然语言处理 API
[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部
微软VASA-1项目通过单张肖像照片和语音音频,生成具有精确唇音同步、栩栩如生的面部行为和自然头部运动的超逼真对话脸部视频。该技术展现了在实时效率、分布外泛化和解耦能力方面的显著优势,并强调了负责任的AI开发和应用的重要性。
[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部
|
4月前
|
人工智能 缓存 自然语言处理
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
781 1
|
4月前
|
人工智能 搜索推荐 语音技术
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!
1123 0
|
机器学习/深度学习 人工智能 自然语言处理
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(四)
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型
1062 0
|
机器学习/深度学习 自然语言处理 前端开发
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型
394 1