前沿科技 | 定制语音四部曲,让AI语音更具“人情味”

简介: 编者按:“冰雪是冬天的礼物;而我,最懂冰雪的快乐。驭冰雪是我独具的智慧。想要玩转冰雪的更多可能?跟上我,去未来!” 当冬奥虚拟主持人冬冬以语音合成的方式说出这句话时,原始发音人吃惊地表示,她已经分不出来这究竟是不是她说的话了。达摩院语音实验室通过技术四部曲,即可完成虚拟主持人的个性化语音定制,今天请跟随我们的脚步一起来看看他们是如何实现的吧! 本文约2091字,建议阅读时间7分钟。

什么是语音合成?顾名思义,就是将文本变成语音,即TTS(text-to-speech)

冬冬智能语音音频:00:0000:10

如今,在自媒体创作视频配音以及虚拟人需要结合2D图像乃至3D建模与人交流的需求等一些新涌现的需求下,对TTS的要求除了需要将文本变成对应的语音,也需要将合成语音变得更具有表现力,韵律、音质和情感上都更加贴近真人


那么如何定制一款具有高表现力的声音呢?我们从冬奥虚拟主持人冬冬说起。


,时长01:50

Step1

发音人挑选

首先需要明确想要的声音是什么样子的,达摩院语音实验室中称之为声音画像,“像十八九岁的少女,有一口标准的普通话,音色清甜、具有运动感,时尚活泼,如行走的张子枫”,根据这样的描述,选择多个发音人进行一两句特定语句的试音。


与传统的发音人直接挑选不同,达摩院语音实验室采用个性化语音合成技术(PTTS)进行合成效果的评估,根据发音人仅有的一两句试音,来合成其他特定文案的音频,而后根据原始音频和初步合成效果进行一个综合的评估来确定目标发音人。


Step2

录制环节

为了保证音频效果稳定和高质量,达摩院语音实验室把冬冬的目标发音人请到符合录制要求的录音棚中。而后,根据冬奥主持素材和通用场景的内容,通过音素覆盖的计算设计出冬冬发音人需要录制的文案。在录音人不同状态下录制的音频可能会出现较大的差异,在录制的过程中,需要录音指导,在录音完成后,进行数据质检。音频的质量决定了定制声音的上限,为了保证得到的录音音频能够有较好的一致性,与传统的人工质检不同,达摩院语音实验室根据音频特征进行自动化的风格一致性筛选,且经过筛选音频的数量也能保证音素覆盖。

Step3

数据标注

经过筛选后的音频可以通过ASR进行自动标注,但同时也需要人工检验和调整。


Step4

模型训练、调优及部署

为了达到高表现力的定制效果,达摩院语音实验室自研KAN-TTS模型能够使得韵律更加自然,HIFI-TTS模型能够使得合成音频音质更优,情感TTS则丰富了说话人的情感和说话风格。最终结合三者,冬冬能够实现主持人和脱口秀的两种风格自由切换,在自然度综合评测上98%接近原始目标发音人。得到调优后的TTS模型后,冬冬的声音依托于阿里云,可供冬奥会期间全天候时长的语音播报使用。


和冬冬的定制流程一样,用户想要的任何精品声音的定制都可以通过这四部曲来进行。


冬冬的声音属于独家版权,目前仅供定制方使用。但达摩院语音实验室在阿里云上提供了不受限制的多种场景、多种语音、多种口音的约百种语音合成定制声音,有客服艾夏、文学艾媛、直播场景小仙等,在超高清一栏,还有舌尖上的中国同款音色。



达摩院语音实验室也提供了不同层级的语音定制,除了像冬冬一样,精品的声音有一听可知的定制效果;还有能保证少量音频即可完成较好的合成效果,普通人也能定制属于自己的TTS音色,即个性化人声定制。



展望

从标准定制到个性化定制,着力高表现力的合成语音,是达摩院语音实验室未来技术重点打磨的方向之一。通过使用显隐式韵律建模,提高单句文本时的韵律起伏和韵律还原度;对长文本建模,尤其加强句首、句尾的韵律连续性和彼此影响,增强段落文本时的上下文韵律;融入例如磕绊、重复、语气词等,提升合成音频真实感,以期实现稳定可靠的高采样率高音质高表现力的合成效果。


内容来源:阿里语音AI

内容作者:何挺

阿里云研究院小助手微信:AlibabaCloudResearch

编辑:阿里云研究院市场活动主管 马骏驰

相关文章
|
23天前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
46 2
|
17天前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
30 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
17天前
|
存储 人工智能 开发者
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
51 0
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
|
17天前
|
人工智能 语音技术 数据格式
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
19 0
三文带你轻松上手鸿蒙的AI语音01-实时语音识别
|
2月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
1月前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
2月前
|
人工智能 Linux iOS开发
AI超强语音转文本SenseVoice,本地化部署教程!
【9月更文挑战第7天】以下是AI超强语音转文本工具SenseVoice的本地化部署教程:首先确保服务器或计算机满足硬件和软件要求,包括处理器性能、内存及操作系统等。接着从官网下载适合的安装包,并按操作系统进行安装。配置音频输入设备和语言模型后,启动SenseVoice并测试其语音转文本功能。最后根据实际使用情况进行优化调整,并定期更新以获取最新功能。详细步骤需参照官方文档。
329 1
|
3月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
71 0
|
3天前
|
机器学习/深度学习 人工智能 供应链
AI技术在医疗领域的应用与未来展望###
本文深入探讨了人工智能(AI)技术在医疗领域的多种应用及其带来的革命性变化,从疾病诊断、治疗方案优化到患者管理等方面进行了详细阐述。通过具体案例和数据分析,展示了AI如何提高医疗服务效率、降低成本并改善患者体验。同时,文章也讨论了AI技术在医疗领域面临的挑战和未来发展趋势,为行业从业者和研究人员提供参考。 ###
|
3天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗领域的应用与挑战
【10月更文挑战第21天】 本文探讨了人工智能(AI)在医疗领域的多种应用,包括疾病诊断、治疗方案推荐、药物研发和患者管理等。通过分析这些应用案例,我们可以看到AI技术如何提高医疗服务的效率和准确性。然而,AI在医疗领域的广泛应用也面临诸多挑战,如数据隐私保护、算法透明度和伦理问题。本文旨在为读者提供一个全面的视角,了解AI技术在医疗领域的潜力和面临的困难。

热门文章

最新文章