“明明白白我的心” 语音交互成无人驾驶汽车刚需

简介:

试想,如果有一天人类与机器人对话,会使用什么方式?尤其是当人类指挥一个车型机器人行驶在道路上的时候,是用计算机语言不断给机器人输入代码,还是只是简单地使用人类最熟悉的交互方式——人类语言?答案显而易见。

语音交互成自动驾驶汽车刚需

与传统汽车不同,目前被热议的自动驾驶汽车从本质上看相当于智能化机器人,只是智能程度不同。作为智能程度最高的无人驾驶汽车,即完全自动驾驶汽车,必须具有看、听、说、思考、决策、行动的能力,在城市道路等复杂环境中,这些能力将直接决定无人车的使用体验,甚至是使用者的生命安全。

目前,全球有多家专注于研究自动驾驶技术的公司,百度的无人驾驶汽车项目起步于2013年,由百度研究院主导研发,其核心技术是百度大脑。到2016年7月底,百度自动驾驶技术专利的申请数量超过350项,包括无人车的智能感知与控制、智能检测与定位、高精地图、语音和图像处理、机器学习、无人车测试等国际领先技术。

在这些技术储备中,良好的人车交互是无人驾驶汽车与用户接触的第一步。而在复杂的行车环境中,其他的交互模式都不如语音交互来得自然、顺畅,符合人类使用习惯——用耳朵听来做信息的输入,用嘴巴说来做信息的输出。

事实上,语音交互并不仅局限于无人驾驶汽车,相关调查数据显示,语音交互逐渐在替代传统手动控制,成为智能行车的显著特征之一。 

百度在智能汽车以及无人驾驶汽车主要交互方式方面主要采取的就是语音交互模式。百度会把最尖端的语音交互技术放到智慧汽车里去,而语音交互准确度和流畅度每提升一个百分点,都能给驾驶带来的非常明显的体验提升。

语音交互得益于百度人工智能的技术储备

语音交互技术可以让操控和管理汽车更便捷,这项技术已经成为自动驾驶汽车的刚需。对于无人驾驶汽车来说,实现语音交互,听得清是第一步,能听懂是第二步,能反馈是第三步。

“听得清”是实现人机交互体验的第一步,也就要考验语音识别的准确度。事实上,语音识别技术已经经过了多年发展,1970年以后,基于统计语言学方法,IBM将当时的语音识别率从70%提升到90%,语音识别规模也从几百个单词上升到几万个单词。1990年,基于对大量数据加以分析的统计方式来构建机器翻译系统的观点。最近几年,行业开始引进深层神经网络(DNN)的算法,DNN技术为语音识别领域带来了新的突破。

据了解,百度大脑的语音识别现在已经到了第二代,使用深度学习的技术进行语音识别。百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%,使汉语安静环境普通话语音识别的准确率接近97%。目前,百度语音识别的准确率能够达到97%,已经超过了人对语音的识别能力。

“听得懂”是第二步,也是人车语音交互中最重要的,只有听懂了人类语言的意图,无人驾驶汽车才能够执行对应的命令。

实现“听得懂”的核心是建立统计语言模型,而语言模型的有效性则依赖强大的计算能力和足够多的数据对该模型进行训练,语言模型越复杂则需要的计算量越大,而巨大、丰富的数据量是保证语言模型输出的准确性的重要基础。

作为一家以搜索业务起家的互联网技术公司,百度具有超大规模的神经网络、万亿级的参数、千亿样本和千亿特征训练;几年前百度便开始自建中国最大的GPU集群,包括数十万台服务器构成了“百度大脑”的实体,也确保了百度强大的计算能力;全网的网页数据、十多年来累积的搜索数据,以及百亿级的图像、视频、定位数据则是百度足以自傲的数据资产。基于此,百度从计算方法、计算能力以及数据能力三个方面,为语音交互技术“听得懂”用户指令奠定了基础。

而语音交互中的第三步——语音合成,也是百度语音技术的优势。基于大数据与深度学习技术优势,百度的新型情感语音合成系统能够让机器摆脱平铺直叙的发声,为用户带来更自然、更接近真人朗读的听觉体验。

目前,百度每天响应的语音合成的请求达到了2.5亿次。在情感语音合成技术上线后,用语音听小说的百度用户从过去平均每天听0.69小时,增长到现在的2.21小时。在刚刚结束的百度世界大会上,通过百度语音合成技术模拟出已逝巨星张国荣的声音,百度CEO李彦宏表示,未来每个人都可能拥有属于自己的语音合成模型。

百度自动驾驶事业部总经理王劲更直言,未来的汽车是由软件定义的,在传统汽车中只有10%的价值来自汽车本身的软件,而未来自动驾驶汽车的价值将有60%来自软件,可以说软件将是未来自动驾驶汽车的核心竞争力。






原文发布时间为:2016年9月22日 
本文作者:作者:赵东
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
7月前
|
人工智能 监控 安全
智能机场系统:打造出行体验的未来
随着航空业的迅猛发展,机场作为出行的重要枢纽,必须不断提升自身的服务质量和效率。智能机场系统应运而生,为旅客提供更加便捷、智能化的出行体验。本文将从技术应用、服务优化和安全保障三个方面,全面介绍智能机场系统的特点和优势。
智能机场系统:打造出行体验的未来
|
12月前
|
传感器 机器学习/深度学习 编解码
让机器人的触觉感官更灵敏、稳定、高效,腾讯Robotics X在传感器上火力全开(1)
让机器人的触觉感官更灵敏、稳定、高效,腾讯Robotics X在传感器上火力全开
107 0
|
12月前
|
传感器 机器人 新制造
让机器人的触觉感官更灵敏、稳定、高效,腾讯Robotics X在传感器上火力全开(2)
让机器人的触觉感官更灵敏、稳定、高效,腾讯Robotics X在传感器上火力全开
|
自动驾驶
展望︱2017年 手机操控无人车
展望︱2017年 手机操控无人车
展望︱2017年 手机操控无人车
|
新能源 智能硬件
致驾科技郁康锐:在智能汽车开上大道前,智能车载空净大有可为 | 人物
汽车智能化是个大命题,除了采用新能源以及加入大屏中控台,驾乘环境以及配件体验的提升也应成为题中之意。
135 0
致驾科技郁康锐:在智能汽车开上大道前,智能车载空净大有可为 | 人物
|
定位技术 Android开发 数据安全/隐私保护
丁盯智能门磁,轻量级的智能安防产品 | 玩啥分享
一提到智能安防,大多数的人想到的都是智能摄像头,然而越来越多的厂商扎堆,让这个看似商机无限的智能安防行业,已经杀得招招见红,而就在此时,云丁网络推出了全新的智能安防产品——丁盯智能门磁。
392 0
丁盯智能门磁,轻量级的智能安防产品 | 玩啥分享
|
人工智能 物联网 芯片
应用速递 | AI智能语音插座 一声控制全屋家电
应用速递栏目:应用速递是面向IoT厂商推荐芯片开放社区(OCC)上的典型应用案例,便于IoT厂商精准获取方案,快速实现产品落地。
132 0
应用速递 | AI智能语音插座 一声控制全屋家电
|
传感器 人工智能 监控
美少女开自动驾驶拖拉机、无人挖掘机占领工地,AI会成为“蓝翔克星”吗?
美少女开自动驾驶拖拉机、无人挖掘机占领工地,AI会成为“蓝翔克星”吗?
157 0
|
人工智能 算法 语音技术
牵手理想,地平线如何为理想ONE打造精准全车语音交互
在今年年内交付的理想ONE车内,用户可体验到地平线AI赋能的车内智能交互系统。
1177 0