汤唯成了百度地图的“AI算法官” 女神背后靠的就是这些语音技术

简介: 在人机交互不再满足于“听”时,“说”的环节变得尤为重要,“怎么说”、“谁来说”成了关键按钮。

在人机交互不再满足于“听”时,“说”的环节变得尤为重要,“怎么说”、“谁来说”成了关键按钮。


而目前语音产品赛道逐渐进入了常规化模式,邀请明星出声也成为了基本操作,相比传统的机械式AI声音,真人语音无论是在效果还是情感方面都是无可比拟的,再加上明星效应,用户的体验效果将来得更加直观。


12月24日,百度地图官方宣布汤唯正式签约代言人,同时上线“汤唯导航语音”。在“说”的领域,百度地图这款“新一代人工智能地图”又迈出了一步。

image.png

 

从语音导航到汤唯定制语音,百度地图“AI+女神”到底进化了什么


传统语音导航,是单调无聊的,定制语音将其变为了过去式。拥有汤唯的柔美声音作为导航,在体验上有什么差别?当“前方路段交通拥挤,请小心驾驶”变成“前方行驶缓慢,慢慢欣赏路上风景”,会不会觉得这才是“人性化”服务?


1、摆脱中性,汤唯带给我们的不只是女神之声


很多人会问,一定要给AI加上性别吗?不,AI不一定需要性别,但语音最好有。


以往我们听到的AI语音都是机械式的声音,是“中性”或者说是“无性”的声音,带来的问题也很直接,就是太冰冷、没个性。之前也有说到,目前个性化、表现力正是语音合成所追求的方向之一,所以百度地图带来的汤唯语音也就不止是一款语音那么简单。可以说汤唯语音从一个功能点体现出结合了人工智能的百度地图正在变得越来越强大。


声音具有和视觉传达一样很强的感染力,甚至有时,以声音为主的交互会带来更好的沉浸感。

image.png

并且语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。所涉及的技术也更加复杂,百度地图就是利用其深度神经网络技术、深度学习技术,再结合车内应用场景进行打造。例如百度语音合成系统采用的全深度学习的框架,是在语音合成领域首次采用全深度学习框架,实现了语言合成上的个性化、口语化。


2、语音算法模型让机器人性化


女神汤唯之所以能完成高质量的语音包,语音合成技术功不可没,在庞大的道路信息和交通数据之下,谁也无法通过直录的方式通通记录,这时就需要靠语音系统来支撑。


以汤唯语音包来说,就是先录制汤唯声音特点的第一手资料,录制的语句包含一些常见的导航提示语句和一些覆盖到常见的中文发音的句子。


其实无论语音还是文字,在计算机看来都是数字化的,语音合成模型的任务就是要建立这两组数字之间的关系,通过一系列的计算,将文本的输入转化为语音的输出。首先需要建立一个神经网络的模型,去学习汤唯录制的语音和录音文字之间的映射关系,就好比让一个不会发音的孩子学汤唯说话。而在合成时,它就可以读取导航语句,并大声朗读出来了。

 

AI浪潮之下,语言合成才是语音技术的高地


使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场,不过大家的注意力多集中在语音合成之外。


1、差点被忽略的“黄金”场景


目前,语音技术的应用多为了语音唤醒和交互,在智能硬件和软件上都有很多典型应用——智能音箱、智能电视、智能扫地机器人、百度地图、百度输入法等等。但不可否认的是,智能硬件的侧重仍在于“语音识别”,对于“语音合成”的应用有,可还不够深。


语音合成本是把文本经一系列计算处理后输出对应音频,通过机械的、电子的方法产生人造语音技术。因为完美的人机交互体验无法忽略“说”的环节,所以语音合成的重要性日益凸显。

image.png

从早期的机械化语音合成开始发展至今,语音合成的应用场景也经历了较大的转变,以前语音合成应用都是在相对单调的场景,现在应用场景更加复杂,对于语音合成技术的要求自然变得更高。


例如,在有声读物方面,用户需求越来越个性化,单调的机械声已经完全不够;在机场、车站广播等服务行业,需要的是温柔、甜美的音质;在办事机构、窗口机关又需要严谨、有力的声音。而百度地图上线汤唯语音,也是给在路上的用户更加磁性、知性的嗓音。


在外部,车内空间显然是一块“宝地”,车内空间的交互可以说是市场刚需,截止到2018年9月,全国机动车保有量已经达到了3.22亿辆,机动车驾驶人数超过了4亿人,交互价值巨大。


百度地图等加速车内空间交互,是将传统的“室内交互”做了外延,给百度带来的也不仅仅是用户层面的拓宽,更体现出百度搜索之外的野心。


2、技术上,语音合成一直是语音技术的高山和壁垒


语音合成可以说是人工智能的“嘴”,是人机交互的基础,一个没有“嘴”的人工智能何谈什么交互?


就现阶段而言,语音识别已经不再是语音技术的关键问题,很多产品的语音识别率都到达了95%以上。但在语音生成上,能让机器说的话与人类说出来的话相近依旧很难,即便是一些简单的词组,你我也能一耳就听出是机器合成的还是真人播报。


如果将语音合成技术拆解,可以分为文本分析、韵律分析和声学分析三个部分,每一个部分都是技术难点。首先需要对文本进行解析,对文本的语言、字符进行分析,提取出文本特征;接着在文本信息的基础上,要判断文本信息字符间奏、长度、频率等多种特征;然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。

image.png

而且,目前主流的语音合成方法为统计参数语音合成和波形拼接的语音合成,统计参数语音合成由前端文本分析、统计参数模型和声码器三个部分组成,对语料库的时长要求较低且在合成目标波形时具有较高灵活性,但重建出来的语音比较机械,缺乏自然度。主要为声码器在对语音信号建模时舍弃了语音细节,合成的语音相比原始语音丢失部分信息。


而百度地图采用的百度语音合成系统,可以将很多模块用深度神经网络去实现,有效解决了使用统计参数合成时所带来的问题。

image.png

波形拼接的语音合成不使用声码器,直接通过拼接原始录制语音片段来合成目标语音,相比参数法,合成的语音更加自然真实。由于直接面向语料库操作,故对语料时长和基元种类具有较高要求。

image.png

当然,当语音流畅度达到人们预期时,也并不是完结,音质、自然度和情感等要素也依旧需要攻克。


就拿汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。


比如,国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。


3、比起听得清和听得懂,“说得好”要求的是更懂人


正如上文所提到过的,目前大部分产品的语音识别率都达到了95%以上,却无法像人类一样表达,其根本原因就是还“不懂人”。


何为“懂人”?我们人与人之间可以从对方的音量、声调、语速、用词等方面听懂对方的要求、情绪、心情、状态,这就是所谓的“懂人”。


说得直白点就是“情感表达”,这是目前而言语音合成技术需要攻克的关键要素。

image.png

想要达成这一目标,针对普通生活场景的语音合成是提高情感表达的最佳方式。目前使用语音合成技术播报下天气或者阅读简讯,无疑能合成出完美的语音,但遇到生活化的场景,或者在特定氛围之下,语音合成的效果就会降低很多。一方面由于系统对韵律信息的捕获不准确,另一方面由于生成的声学参数存在误差。当语音合成可以完美消化各类生活化的语境时,其应用场景将得到极大的拓宽。


另外,在语音合成的应用中,大多都是单人、单语言、单语音,如何能由单变多也是语音合成应用中的一大困扰。在“3单”语境的限制下,语言合成技术难以完成应用突破,而目前一些解决“3单”语境的解决方案也不够完美,或多或少都存在瑕疵,并且也没有足够的语料素材来进行支撑。


如何使计算机算法能够自适应技术实现任意说话人、不同风格的高质量语音合成,如何充分挖掘不同语言的发音空间,在语料受限条件下实现多语言语音合成,也是语音合成现阶段的一大挑战。

image.png

百度地图在深度神经网络技术的支撑下,已经开始对“3单”语境作出反应,并已收到成效,百度语音合成开始支持中文英文混读,可以提供数十种不同音色,更支持语速、音调、音量设置。这些技术活功能上的增加,无疑将给语音合成带来更加广阔的想象空间。


近年来,在语音技术行业中开始流行一句话:“得语音合成者得天下”,百度地图此时牵手国民女神,导航语音全量上线似乎也在卡这个时间点。

 

语音技术个性化时代,百度地图占领AI地图高地


地图从羊皮到纸卷,从PC到手机,其实一直在随技术的进步而进化。放眼整个行业,在人工智能浪潮下,百度地图已经走在了前列。语音合成上越来越讲究个性化,个性化的需求就无法绕开大数据和AI,而在这两个方面百度的经验正好合适。


1、汤唯女神的定制语音,不止是百度语音合成技术体现出情感特征的标志


赋予合成语音情感,让合成语音表现出个性生理、心理等特点,是语音合成领域一个难题。

百度地图在推出汤唯语音导航的同时,也足以证明其语音组技术能力的成熟。

神经网络的模型随着百度技术经验的积累,也越来越精巧和高效。汤唯采用的模型,正是百度近期研发出的高质量合成模型,具有很好的音质,音色还原度和自然度。


让语音合成具备情感,还要建立多视角情感描述模型,需要描述认知、心理、生理等影响因素之间的关联性,再通过语音频谱特征表现出来。并且不能一厢情愿,还需要从用户的角度模拟不同人群的使用习惯,偏好等。


而这一系列过程背后,是一套复杂且庞大的数据系统在支撑,百度之所以能够完成还得益于百度地图大数据的丰富。目前百度地图覆盖了全球209个国家及地区超过850万公里道路里程,每日响应位置服务近千亿次等,这些正是百度语音组在打造语音合成技术时的基石。


2、两款导航语音开始满足个性化需求,百度地图AI化已经不再只是技术端


在今年3月,百度地图事业部正式并入AI技术平台体系(AIG),不仅是对其作为基础性服务地位的肯定,也意味着百度地图能够获得更直接的AI技术支持。


依托于整个百度,百度地图在AI技术研发上处于先发行列,有着比较全面的AI技术积累,涵盖语音、图像、大数据智能等。


而“汤唯迷人语音”和“汤唯常规语音”两款导航语音就能直观体现出百度语音组在韵律模型、声学模型预测(神经网络的模型)、弹性单元挑选技术等技术上的功力。

image.png

从AI技术应用来看,百度地图已经表现出强大的AI能力,除了能提供实时路况、提前规划路线,推测拥堵等智能地图的“常规功能”外,百度地图开始提供更加个性化的交互,例如,AR实景导航、全景地图、旅游地图、充电桩地图、急救车让行播报等个性化功,这些创新功能不止是听觉还包括视觉上。值得一提的是,百度智能地图还能够“学习”不同路段对应的交规信息,这一点是极具应用价值的。


由此可见,百度地图AI化已经真正意义上实现了从技术端走到了应用端。

 

结论

汤唯女神导航语音对于百度地图而言是一个标志性事件,是在AI风口下,百度地图作出的重大变革之一,意味着百度地图AI能力呈现立体化。


从杨洋到汤唯,百度地图致力于展现地图AI的先进性,一直不竭余力,智能语音助手作为一个辅助功能,对于其他地图产品的无足轻重,百度地图则是高度重视,仅在视觉提供上,百度地图的语音助手就一定会是在最显眼的位置,并且不止于辅助,百度为语音助手所寄予的是“交互”,充分发挥导航语音“听”和“说”的能力。


如今,百度地图邀请女神汤唯“献声”,无疑是给百度地图语音的锦上添花,在打造新一代人工智能地图上百度地图又先行一步。


从以前的听清、听懂到满足,发展到在满足之后更有“反馈和应变”。在交互方式上也由单一交互变为了真正的双向交互。


同时在百度地图“更精准、更丰富、更易用”的理念基础上可以再加上一条“更具情感”。


在抢占智能地图高地上,百度地图已然领先。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3天前
|
机器学习/深度学习 人工智能 供应链
AI技术在医疗领域的应用与未来展望###
本文深入探讨了人工智能(AI)技术在医疗领域的多种应用及其带来的革命性变化,从疾病诊断、治疗方案优化到患者管理等方面进行了详细阐述。通过具体案例和数据分析,展示了AI如何提高医疗服务效率、降低成本并改善患者体验。同时,文章也讨论了AI技术在医疗领域面临的挑战和未来发展趋势,为行业从业者和研究人员提供参考。 ###
|
3天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
23 6
|
3天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗领域的应用与挑战
【10月更文挑战第21天】 本文探讨了人工智能(AI)在医疗领域的多种应用,包括疾病诊断、治疗方案推荐、药物研发和患者管理等。通过分析这些应用案例,我们可以看到AI技术如何提高医疗服务的效率和准确性。然而,AI在医疗领域的广泛应用也面临诸多挑战,如数据隐私保护、算法透明度和伦理问题。本文旨在为读者提供一个全面的视角,了解AI技术在医疗领域的潜力和面临的困难。
|
4天前
|
人工智能 自然语言处理 监控
AI技术在文本情感分析中的应用
【10月更文挑战第22天】本文将探讨人工智能(AI)如何改变我们对文本情感分析的理解和应用。我们将通过实际的代码示例,深入了解AI如何帮助我们识别和理解文本中的情感。无论你是AI新手还是有经验的开发者,这篇文章都将为你提供有价值的信息。让我们一起探索AI的奇妙世界吧!
13 3
|
4天前
|
人工智能 边缘计算 监控
边缘AI计算技术应用-实训解决方案
《边缘AI计算技术应用-实训解决方案》提供完整的实训体系,面向高校和科研机构的AI人才培养需求。方案包括云原生AI平台、百度AIBOX边缘计算硬件,以及8门计算机视觉实训课程与2门大模型课程。AI平台支持大规模分布式训练、超参数搜索、标注及自动化数据管理等功能,显著提升AI训练与推理效率。硬件涵盖多规格AIBOX服务器,支持多种推理算法及灵活部署。课程涵盖从计算机视觉基础到大模型微调的完整路径,通过真实商业项目实操,帮助学员掌握前沿AI技术和产业应用。
19 2
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开
【10月更文挑战第20天】近日,开源版GPT-4o的发布成为AI领域的焦点。作为GPT系列的最新成员,GPT-4o在性能和多模态数据处理方面实现了显著提升,得到了知名AI专家Andrej Karpathy的高度评价。该模型的开源特性将进一步促进AI研究的进展。
15 3
|
5天前
|
机器学习/深度学习 人工智能 测试技术
探索 AI 驱动的软件开发:未来技术的新趋势
【10月更文挑战第19天】本文探讨了人工智能(AI)在软件开发中的应用现状和技术优势,包括代码生成、缺陷检测、自动化测试和性能优化。AI 可以提高开发效率、减少人为错误、加速创新并持续学习。文章还讨论了实施 AI 驱动开发的挑战和最佳实践,强调了数据管理和技能培训的重要性。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术前沿探索:解锁智能时代的无限可能
【10月更文挑战第22天】AI技术前沿探索:解锁智能时代的无限可能
11 1
|
5天前
|
机器学习/深度学习 人工智能 算法
利用AI技术进行图像识别的探索之旅
【10月更文挑战第21天】本文主要介绍了如何运用人工智能技术进行图像识别。通过深入浅出的解释,让读者对AI图像识别有更深入的理解。同时,文章还提供了一些代码示例,帮助读者更好地理解和应用这些技术。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
智能时代的伦理挑战:AI技术的双刃剑效应
【10月更文挑战第20天】 在21世纪的科技浪潮中,人工智能(AI)如同一颗璀璨新星,引领着人类社会迈向前所未有的智能化时代。然而,正如印度圣雄甘地所言:“你必须成为你希望在世界上看到的改变。” AI技术的发展不仅带来了效率与便利的飞跃,也引发了关于隐私侵犯、就业替代、决策透明度等一系列深刻的伦理问题。本文旨在探讨AI技术作为一把双刃剑,如何在推动社会进步的同时,对我们的生活方式、价值观念乃至法律体系提出挑战,并呼吁我们在享受科技成果的同时,不忘审视其背后的伦理责任,共同塑造一个更加公正、透明的智能未来。
21 2