高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感

简介: QQ 浏览器「听书」背后的 StyleTTS 让合成语音有了情感的温度。

今年 4 月,QQ 浏览器宣布 「小说频道」正式变更为 「免费小说」频道,这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载,其阅读方式也随之几经改变。

与此同时,科技的发展也在革新着阅读方式,例如语音合成技术的成熟让越来越多的读者选择听小说。语音合成技术中,让声音富有情感和表现力,一直是一大难点。而 QQ 浏览器最近上线的「听书」功能中,应用腾讯 PCG AI 交互部 StyleTTS 端到端合成框架业内创新技术让合成语音有了情感的温度,高保真音色可与真人媲美。

QQ 浏览器使用的 StyleTTS 利用精心设计的语音语料库进行声学模型和文本处理模型的训练,得到的模型深度挖掘了语音语言特性,合成的语音清晰、自然、亲切、具有高表现力。现阶段 QQ 浏览器听书功能已上线多种音色,每个音色都有自己的风格,满足不同人群的阅读喜好。在最新的一次更新中,QQ 浏览器上线了三名作家 AI 音色包,不同寻常的玩法背后是 QQ 浏览器为 AI 合成声音进一步应用落地的尝试。


端到端声学模型,实现跨发音人的风格控制合成


其实,语音合成技术一直伴随着网文的发展,因为它的历史更加久远。1939 年贝尔实验室利用共振峰原理制作的历史上第一台电子合成器属于语音合成的一个重要开端,直到上世纪 90 年代基于大语料库的单元挑选与波形拼接合成方法出现,可以合成高质量的自然人语音。在神经网络出现之前,波形拼接一直是语音合成的主要方式。波形拼接的基本原理就是根据输入文本的信息,从人工录制与标注的语料库中挑选合适的基元(通常为音素或音节),进行少量的调整,然后采用波形拼接的方式得到与待合成文本相对应的语音序列。但是波形拼接合成方法需要准备海量的高质量语料,而且拼出来的语音虽然能让人听懂,但很难做到自然流畅。当波形拼接合成应用在朗读小说时,其合成语音比较僵硬,机械化的电子声音并不能给听众带来良好的听觉体验。而人类读文章时有自然的换气和停顿,韵律自然,听起来才不会累。

深度神经网络克服传统的文本到语音转换系统的局限性,匹配口语中的语音顿挫和语调模式和韵律,并将语音单元合成为计算机语音。通过声学建模,即将文本特征转换为声学特征,利用半监督机器学习技术,实现了高精度、自动化的字音判别和贴近真人的语音生成效果。由此合成的语音在节奏、语调和顿挫感上都几乎和真人一样,具备人类语音一样的自然韵律和词汇清晰度。

微信图片_20211206145523.jpg

StyleTTS 结构

端到端语音合成系统,由前端、声学模型和声码器三部分组成。前端主要解决基于语义理解的文本发音问题,主要包含文本正则、分词、字转音、停顿预测等;声学模型负责为语音赋予韵律,比如语速、语调、停顿、重音和情绪变化等;最后一部分声码器负责还原语音的声学特征,也就是一般所说的嗓音或声线,如振幅、频率、波长等。

为了更贴近朗读者的声音特点,QQ 浏览器此次用到的 StyleTTS 的端到端语音合成更加重视个性化与情感共鸣,合成效果也具有更高的自然度、辨识度,同时还能实现对语音转换的风格、口音、情感等进行灵活选择与控制,从而满足不同场景的需求。在前期上线的 6 个音色是精心挑选的具有小说风格同时有一定特点的声音,其中还包括东北女声。

微信图片_20211206145525.jpg


腾讯 PCG AI 交互部相关负责人向机器之心表示,在录制音库时,会专门加入一些东北方言文本,发音人按照方言朗读。训练 StyleTTS 声学模型时使用无监督学习帧级 VAE 对韵律进行帧级表征,实现说话人音色与韵律解耦,而与口音相关信息主要保留在韵律模型部分。在东北女声上,使用方言、普通话不同数据对韵律部分进行对抗训练,加强韵律模型对口音的学习。

除了不同风格的音色以及方言,QQ 浏览器运用的 StyleTTS 端到端合成框架支持通过不同人 (声) 的韵律模型和音色模型重组搭配,能够实现跨发音人的风格控制合成,并拥有抑扬顿挫的韵律节奏和丰富立体的情感表达,这对于语音合成来说是非常大的突破。此外,模型还加入说话人特征编码、语种特征编码等经典方法,进一步提升建模能力。未来,利用 StyleTTS 框架优势,可以让同一人学习并具备多种风格和语种,就能给用户带来更多选择。

生成语音中的韵律、表现力等由声学模型决定,而清晰度则由声码器决定,声码器限制了最终合成语音的音质,同时也是整个语音合成模型的计算瓶颈。语音阅读主要在移动端,不仅对音质有高要求,同时也对性能提出很大挑战。StyleTTS 端到端合成框架采用 Multi-band MelGAN 分频带建模,可以在较短时间内合成较好的音频。针对移动端做了定制优化,在保证音频质量没有明显下降的情况下,实现合成速度数倍提升。

关于语音合成在情感表达准确度的分辨,目前业内主要还是靠人工主观测听,通过 MOS 评分来判断。为此,QQ 浏览器正在联合腾讯 PCG AI 交互部等多方建立一套更加细致的音色生产和评分机制,从场景、风格、语速、年龄、语调、音质等多个维度进行详细评分,综合评价每一个音色的品质。

QQ 浏览器的月活跃用户如今达到 4.45 亿,并且将免费小说作为一级入口放在了底部菜单栏,让用户打开浏览器就能够找到小说阅读的界面,足可见小说在其 “内容 + 服务的综合信息平台” 定位中的重要性。免费小说为 QQ 浏览器带来增量的同时,也让更多的优质 IP 得到了更大范围的推广。而 “听书” 为读者提供了另一种阅读方式,在增加了用户粘性的同时,也将吸引全新的读者。为此,QQ 浏览器也在 “听书” 模式上进行不断地尝试,从而为读者提供更好的阅读体验,StyleTTS 的应用则进一步满足了 “听书” 的个性化需求。


语音合成成本降低,探索阅读新玩法


在刚刚过去的国际盲人节,QQ 浏览器免费小说 “听书” 功能更新,推出叶非夜、公子衍、青衫取醉三位阅文作家的 AI 音色包,并上线 “朗读官” 频道。名人更具有影响力和号召力,因此容易被选择录制音色包,而 QQ 浏览器选择了三位作者,可以看出 QQ 浏览器在数字阅读方面积极探索玩法持续创新的决心,听作者读自己写的小说确实别有一番感受。

QQ 浏览器免费小说频道拥有阅文集团上千万本小说以及上百万作者资源,这意味着在阅读上有足够的空间去做创新。如此一来,读者的体验感和大众化的默认语音会呈现巨大的不同。

微信图片_20211206145530.jpg


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高,从启动定制到最终交付,制作周期长且成本高昂。而如今 QQ 浏览器运用的 StyleTTS 通过海量高质量录音数据构建了一个稳定的基础模型,只需要每种情感少量数据,就能很好的还原该发音人不同情绪效果,节省了大量的人力、物力及时间成本,且得到的效果几乎与真人朗诵别无二致。

在中国主流音频平台上,有声书受欢迎度以 66.3% 高居榜首。而相关研究数据显示,中国现在已经成为全世界第二大有声阅读市场,2020 年中国的有声阅读市场规模已经超过 80 亿元。预计到 2022 年,有望超过美国,成为全球第一大有声阅读市场。可以想象,随着 StyleTTS 这一技术的应用普及,有声书行业也将随之发生巨大的改变。

如何让人工智能具有人类的特质和技能?答案是不断吸收和学习。谷歌曾让它的 AI 读 2000 多本言情小说,只为它能像真人和人类对话,而且对话内容有更多的风格。而对于 StyleTTS 来说,为了能像真人一样说话,同样需要海量的录音数据供其分析、归纳从而吸收。在 QQ 浏览器听书功能中落地为 StyleTTS 提供了丰富的实践反馈,而 AI 朗读技术也将逐渐成熟、音色选择多、丰富流畅,将让听书成为常态。

腾讯 PCG AI 交互部相关负责人表示,听书是 StyleTTS 现在重要发展的领域,后续会在用户个性化、多角色、情绪、情感等分析识别,甚至自动配乐、音效等更多尝试,逼近真人配音制作的水平。此外,在短视频、AI 交互、社交、实时通信等领域会有更多的应用探索。通过打造高品质、高效率的音视频内容创作工具,帮助创作者们进行更好的创作。

相关文章
|
Web App开发 移动开发 JavaScript
JS - 微信浏览器(H5)语音录音插件(Recorder H5)
JS - 微信浏览器(H5)语音录音插件(Recorder H5)
1915 0
|
3月前
|
自然语言处理 API 数据处理
惊了!浏览器居然自带语音API和流处理API!
惊了!浏览器居然自带语音API和流处理API!
43 0
|
13天前
|
JavaScript API
深入解析JS中的visibilitychange事件:监听浏览器标签间切换的利器
深入解析JS中的visibilitychange事件:监听浏览器标签间切换的利器
32 0
|
2月前
|
JavaScript 前端开发
js之浏览器对象|28
js之浏览器对象|28
|
24天前
|
机器学习/深度学习 自然语言处理 前端开发
前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革
除了调用API接口使用Transformer技术,你是否想过在浏览器中运行大模型?Xenova团队推出的Transformer.js,基于JavaScript,让开发者能在浏览器中本地加载和执行预训练模型,无需依赖服务器。该库利用WebAssembly和WebGPU技术,大幅提升性能,尤其适合隐私保护、离线应用和低延迟交互场景。无论是NLP任务还是实时文本生成,Transformer.js都提供了强大支持,成为构建浏览器AI应用的核心工具。
230 0
|
3月前
|
机器学习/深度学习 人工智能 前端开发
【人工智能】利用TensorFlow.js在浏览器中实现一个基本的情感分析系统
使用TensorFlow.js在浏览器中进行情感分析是一个非常实用的应用场景。TensorFlow.js 是一个用于在JavaScript环境中训练和部署机器学习模型的库,使得开发者能够在客户端直接运行复杂的机器学习任务。对于情感分析,我们可以使用预先训练好的模型来识别文本中的积极、消极或中性情感。
84 4
【人工智能】利用TensorFlow.js在浏览器中实现一个基本的情感分析系统
|
3月前
|
机器学习/深度学习 存储 前端开发
实战揭秘:如何借助TensorFlow.js的强大力量,轻松将高效能的机器学习模型无缝集成到Web浏览器中,从而打造智能化的前端应用并优化用户体验
【8月更文挑战第31天】将机器学习模型集成到Web应用中,可让用户在浏览器内体验智能化功能。TensorFlow.js作为在客户端浏览器中运行的库,提供了强大支持。本文通过问答形式详细介绍如何使用TensorFlow.js将机器学习模型带入Web浏览器,并通过具体示例代码展示最佳实践。首先,需在HTML文件中引入TensorFlow.js库;接着,可通过加载预训练模型如MobileNet实现图像分类;然后,编写代码处理图像识别并显示结果;此外,还介绍了如何训练自定义模型及优化模型性能的方法,包括模型量化、剪枝和压缩等。
45 1
|
3月前
|
编解码 JavaScript 前端开发
JS逆向浏览器脱环境专题:事件学习和编写、DOM和BOM结构、指纹验证排查、代理自吐环境通杀环境检测、脱环境框架、脱环境插件解决
JS逆向浏览器脱环境专题:事件学习和编写、DOM和BOM结构、指纹验证排查、代理自吐环境通杀环境检测、脱环境框架、脱环境插件解决
84 1
|
3月前
|
自然语言处理 资源调度 JavaScript
JS 逆向基础篇:JS作用域和浏览器对象属性补环境
JS 逆向基础篇:JS作用域和浏览器对象属性补环境
133 1
|
3月前
|
API UED 开发者
如何在Uno Platform中轻松实现流畅动画效果——从基础到优化,全方位打造用户友好的动态交互体验!
【8月更文挑战第31天】在开发跨平台应用时,确保用户界面流畅且具吸引力至关重要。Uno Platform 作为多端统一的开发框架,不仅支持跨系统应用开发,还能通过优化实现流畅动画,增强用户体验。本文探讨了Uno Platform中实现流畅动画的多个方面,包括动画基础、性能优化、实践技巧及问题排查,帮助开发者掌握具体优化策略,提升应用质量与用户满意度。通过合理利用故事板、减少布局复杂性、使用硬件加速等技术,结合异步方法与预设缓存技巧,开发者能够创建美观且流畅的动画效果。
74 0