来源 阿里语音AI 公众号
TTS(Text-To-Speech 语音合成) 是AI领域一颗小而美的“珍珠”,有了它,才让智能应用和智能硬件长出“嘴巴”活起来。作为语音解决方案的发声环节,它既可以像你现实中常见到的——主持人播报新闻、教师授课、明星导航。也可以定制特色人声,用或奇趣、或软萌、或激越的声音来读小说,朗诵诗歌,解说视频等等。本文将为大家介绍基于阿里最新 KAN-TTS语音合成技术的精品人声定制产品。
什么是语音合成?语音合成就是将文字转换成一段自然流畅语音的技术。目前,语音合成技术在泛娱乐、教育及涉及人机交互业务领域有比较广泛的应用。常见于语音导航、语音助手、电话客服;影视、游戏的配音、有声阅读等等。不同的应用场景期望呈现的人声各不相同,人声模型定制产品应运而生。所谓人声模型定制,就是通过语音合成技术,定制不同性别、年龄、风格、情绪的人声模型以满足不同业务和场景的需要。
从2010年deep learning技术引入到语音识别领域后,对推动语音技术发展起到了重要作用。但在TTS方向一直应用比较缓慢。直到2016年、2017年,随着Google的WaveNet、Tacotron和MILA的Char2Wav的提出,才将deep learning的强大能力赋予整个TTS方向。从音质、表现力和建模难度几个方面都取得显著超越。最近两年,学术界开始将第一流的成果带入到实际产品中,随之而来的,就是TTS商业化应用的飞速发展。例如Google Cloud在2018年上线了基于TPU的WaveNet产品方案,Microsoft Azure在2018年上线了基于GPU的全Neural产品方案。阿里云也在2018年上线了全Neural产品方案,并且考虑到实际客户和业务的扩展需求,历经大量的优化后,该方案是目前业内唯一的完全基于CPU的全Neural产品化方案。
更新更好的技术上线,同为阿里旗下的阿里巴巴集团客服和蚂蚁客服理所当然成为首批客户,两家客户无论业务量还是技术要求均远高于业界平均水平,这也从另外一个侧面证明阿里最新KAN-TTS技术框架的实际应用水平。2019年,天猫精灵上线的个性化语音订制服务也出自KAN-TTS,它可以让父母用手机录10分钟语音数据定制自己的声音,合成故事给孩子听。
除了阿里集团内部采购应用,阿里云在2019年对外推出了基于KAN-TTS的快速低成本的新一代人声模型定制服务,成功进驻第一财经移动端,根据用户提供的少量财经新闻主播数据,定制了一款高表现力合成声音,从而可以在第一财经APP上为用户提供高体验的新闻朗读效果。
随着技术水平的进步和商业化应用的推进,阿里基于KAN-TTS技术框架的人声模型定制服务优势进一步凸显。通常来说,市场对产品的通用要求,一是价廉,一是质优,KAN-TTS下的人声模型定制产品优势恰在于此。
1.更低的成本。在传统人声模型定制的时候,由于受限于技术框架,整个定制需要的数据量是2万句话(20小时)左右。按照人声数据录制的高标准要求,2万句话往往对应着半年以上的录音周期,需要发音人连续不断的进行高质量高可靠性的录音工作。这中间需要持续支付录音人、录音棚、录音师、数据处理等各项费用。而且因为录音周期过长,会增加定制项目的风险。比如发音人因感冒发烧等状况会直接影响嗓子的发挥,比如录音棚因故装修等等。基于KAN-TTS强大的模型结构以及成百上千个发音人的数据,使得我们可以利用更少量的数据构建效果更好的TTS声音。同时,我们开发了一套语料选取工具,可以做到用尽量少的数据覆盖尽量全的场景,进一步降低了录音数据量。
上图显示了基于KAN-TTS框架下,不同数据量所带来的定制效果。可以看出,即便是在2小时(2000句)以下的数据量时,基于KAN-TTS定制也可以取得不错的定制效果,和10小时差距不大,明显超过95%和真人录音接近程度。相对于传统定制而言,基于KAN-TTS的定制可以将数据量缩小到之前的十分之一,同时,定制周期也会从之前的半年以上缩短到一个月左右。
2. 更高的表现力。传统人声模型定制语音表现比较生硬单一,很难调试出适应不同场景、需求、有个性、有特色的语音产品。而基于KAN-TTS技术的人声模型定制产品恰恰在这一方面表现突出。它能够根据需求风格灵活定制更适合场景需求的产品。比如新闻产品要求发音准确、饱满、正规;客服则要亲切自然,注重交流,有时带点口音更有亲切感。KAN-TTS技术能够更好的掌握每个人语音中的独有特质,合成独属于你的特色语音,满足个性化需求。
阿里云精品人声定制产品在最新的KAN-TTS技术加持下,持续挖掘不同应用场景下人声的特点,沉淀出一套小数据量定制高音质、高表现力人声模型的产品能力。目前我们已在新闻播报、小说阅读、智能硬件等多场景实现了产品落地。更多案例详见官网。(https://ai.aliyun.com/nls/customtts )
最后,语音合成产品更高阶将通往何处?
从合成技术角度。追求的当然是更接近真人的音效、更细腻的音质、更自然的语音语调和更高的场景适配度。就目前来说,在KAN-TTS技术框架下定制的人声模型,在这四个方面均有长足进步。
从应用门槛角度。目前大部分精品人声模型定制的录音采集工作依然要在专业的录音棚,使用专业的录音设备,在专业的录音指导下完成。如何能降低录音的门槛,让普通人可以在普通环境,使用普通设备完成录音采集,并可以保证采集的录音满足定制人声模型的需求,是让语音合成技术普惠的下一个努力目标。
从应用场景角度。随着应用日渐普及,用户对于语音合成的声音已不再满足于亲切、自然的发音,拥有个性化的声音正在成为消费者购买时占比逐渐增加的参考维度。随着技术的提高,市场需求的发展,个性化TTS、情感TTS会在各细分场景得到更大的应用,比如知识付费、明星IP、智能硬件、实体/虚拟机器人等。对于那些拥有大量文本内容,例如书籍、UGC等和拥有自己的音频内容,例如强IP或者IP类渠道的客户来说,语音合成或许是最适合他们的选择。KAN-TTS技术框架下定制的人声模型产品不但具有质优高效,成本低廉的优势,而且合作方式更为灵活,可以提供TTS的云/本地服务,还可以进行IP人声定制或合作共建声优工厂。
阿里语音在追求世界一流技术的同时持续为客户提供精品人声定制服务,致力实现科技创新和科技应用成果转化的双赢,更好的满足客户个性化需求!