前沿科技 | 定制语音四部曲,让AI语音更具“人情味”

简介: 编者按:“冰雪是冬天的礼物;而我,最懂冰雪的快乐。驭冰雪是我独具的智慧。想要玩转冰雪的更多可能?跟上我,去未来!” 当冬奥虚拟主持人冬冬以语音合成的方式说出这句话时,原始发音人吃惊地表示,她已经分不出来这究竟是不是她说的话了。达摩院语音实验室通过技术四部曲,即可完成虚拟主持人的个性化语音定制,今天请跟随我们的脚步一起来看看他们是如何实现的吧! 本文约2091字,建议阅读时间7分钟。

什么是语音合成?顾名思义,就是将文本变成语音,即TTS(text-to-speech)

冬冬智能语音音频:00:0000:10

如今,在自媒体创作视频配音以及虚拟人需要结合2D图像乃至3D建模与人交流的需求等一些新涌现的需求下,对TTS的要求除了需要将文本变成对应的语音,也需要将合成语音变得更具有表现力,韵律、音质和情感上都更加贴近真人


那么如何定制一款具有高表现力的声音呢?我们从冬奥虚拟主持人冬冬说起。


,时长01:50

Step1

发音人挑选

首先需要明确想要的声音是什么样子的,达摩院语音实验室中称之为声音画像,“像十八九岁的少女,有一口标准的普通话,音色清甜、具有运动感,时尚活泼,如行走的张子枫”,根据这样的描述,选择多个发音人进行一两句特定语句的试音。


与传统的发音人直接挑选不同,达摩院语音实验室采用个性化语音合成技术(PTTS)进行合成效果的评估,根据发音人仅有的一两句试音,来合成其他特定文案的音频,而后根据原始音频和初步合成效果进行一个综合的评估来确定目标发音人。


Step2

录制环节

为了保证音频效果稳定和高质量,达摩院语音实验室把冬冬的目标发音人请到符合录制要求的录音棚中。而后,根据冬奥主持素材和通用场景的内容,通过音素覆盖的计算设计出冬冬发音人需要录制的文案。在录音人不同状态下录制的音频可能会出现较大的差异,在录制的过程中,需要录音指导,在录音完成后,进行数据质检。音频的质量决定了定制声音的上限,为了保证得到的录音音频能够有较好的一致性,与传统的人工质检不同,达摩院语音实验室根据音频特征进行自动化的风格一致性筛选,且经过筛选音频的数量也能保证音素覆盖。

Step3

数据标注

经过筛选后的音频可以通过ASR进行自动标注,但同时也需要人工检验和调整。


Step4

模型训练、调优及部署

为了达到高表现力的定制效果,达摩院语音实验室自研KAN-TTS模型能够使得韵律更加自然,HIFI-TTS模型能够使得合成音频音质更优,情感TTS则丰富了说话人的情感和说话风格。最终结合三者,冬冬能够实现主持人和脱口秀的两种风格自由切换,在自然度综合评测上98%接近原始目标发音人。得到调优后的TTS模型后,冬冬的声音依托于阿里云,可供冬奥会期间全天候时长的语音播报使用。


和冬冬的定制流程一样,用户想要的任何精品声音的定制都可以通过这四部曲来进行。


冬冬的声音属于独家版权,目前仅供定制方使用。但达摩院语音实验室在阿里云上提供了不受限制的多种场景、多种语音、多种口音的约百种语音合成定制声音,有客服艾夏、文学艾媛、直播场景小仙等,在超高清一栏,还有舌尖上的中国同款音色。



达摩院语音实验室也提供了不同层级的语音定制,除了像冬冬一样,精品的声音有一听可知的定制效果;还有能保证少量音频即可完成较好的合成效果,普通人也能定制属于自己的TTS音色,即个性化人声定制。



展望

从标准定制到个性化定制,着力高表现力的合成语音,是达摩院语音实验室未来技术重点打磨的方向之一。通过使用显隐式韵律建模,提高单句文本时的韵律起伏和韵律还原度;对长文本建模,尤其加强句首、句尾的韵律连续性和彼此影响,增强段落文本时的上下文韵律;融入例如磕绊、重复、语气词等,提升合成音频真实感,以期实现稳定可靠的高采样率高音质高表现力的合成效果。


内容来源:阿里语音AI

内容作者:何挺

阿里云研究院小助手微信:AlibabaCloudResearch

编辑:阿里云研究院市场活动主管 马骏驰

相关文章
|
6月前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
6月前
|
人工智能 算法 数据安全/隐私保护
拔俗AI多模态心理风险预警系统:用科技守护心理健康的第一道防线
AI多模态心理风险预警系统通过语音、文本、表情与行为数据,智能识别抑郁、焦虑等心理风险,实现早期干预。融合多源信息,提升准确率,广泛应用于校园、企业,助力心理健康服务从“被动响应”转向“主动预防”,为心灵筑起智能防线。(238字)
764 0
|
10月前
|
人工智能 文字识别 安全
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
1069 32
|
9月前
|
人工智能 Android开发 iOS开发
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
Shortcuts for Android(SFA)是一款安卓自动化工具,支持语音创建快捷指令,实现听歌、导航、发消息等操作。操作简单,提升效率,快来体验语音控制的便捷!
1154 0
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
|
9月前
|
人工智能 自然语言处理 语音技术
深度解析:AI语音客服系统如何重塑客户服务体验与主流解决方案探析
在数字化浪潮下,AI语音客服凭借高效、便捷、24小时在线的优势,成为企业提升服务效率、优化体验的重要工具。本文详解其核心技术、应用价值、选型要点及市场主流方案,如阿里云通义晓蜜、合力亿捷等,助力企业智能化升级。
604 1
|
10月前
|
人工智能 移动开发 开发工具
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
随心记是一个由 AI 生成的网页备忘录,它支持语音录入(可下载)、图文视频记录。最重要的是,它支持离线使用,所有数据都储存在浏览器中,不依赖后端,刷新页面数据也不会丢失!
335 0
H5录音、图文视频IndexDB储存最佳实践:用AI生成语音备忘录
|
9月前
|
存储 人工智能 Java
Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)
本项目基于Spring Boot 3.5.3与Java 17,集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能,适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。
|
10月前
|
机器学习/深度学习 人工智能 算法
ai赋能科技
本内容探讨了AI技术在教育领域的深度应用,涵盖教学设计、课堂互动、科研赋能、教学管理和伦理实践五大方面。从智能备课到动态学情分析,从跨学科创新到自动化评估,展示了AI如何优化教育全流程。同时强调数据安全与算法公平性,确保技术发展不偏离教育本质。最后指出,在AGI时代,学习AI大模型不仅是为了适应技术浪潮,更是为了填补400万人才缺口,成为高薪“AI+”岗位的抢手人才。教育的目标已转变为培养驾驭AI的思考者,而不仅仅局限于竞争者角色。
258 1
|
人工智能 自然语言处理 达摩院
IDC报告:阿里AI语音语义市场增速96%,中国第一
6月21日,国际权威研究机构IDC发布《中国人工智能软件及应用市场研究报告-2020》,阿里AI在语音语义领域表现强劲,市场规模年增长率达96.6%,在中国主要语音语义厂商中排名第一,同时,总营收跻身中国前二。
IDC报告:阿里AI语音语义市场增速96%,中国第一
|
6月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1567 59