人机如何交互就看开发者的脑洞了

简介:

在今年早些时候,百度曾经利用情感语音合成技术还原了张国荣声音,完成了一场“张国荣”与粉丝的“隔空对话”,从粉丝们的普遍反应来看,效果是可以的。而这只是百度语音的技术之一。

昨天,百度语音开放平台上线三周年,百度公司首席科学家吴恩达对外介绍了百度四项最新语音技术——情感合成、远场方案、唤醒二期技术和长语音方案,这些技术将免费开放给用户和开发者。

百度开放4项语音技术,人机如何交互就看开发者的脑洞了

“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示。

因为语音技术的加强,吴恩达对人工智能的未来很有信心,陪伴机器人、个性化私教、音乐作曲、机器人医生都不是说说而已,人工智能的技术创造了很多可能,百度没有办法探索这些可能,所以就做一个背后的技术推手:“希望可以支持你们在非常有潜力的项目上探索,有非常好的结果。”

比如,开发者可以利用新的接口,使语音识别距离增加到3-5米,将设备的语音唤醒率提升到95%以上同时更省电误报更少,或提升长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。

百度希望这些技术能解决用户在语音交互场合中普遍困扰的一些关键问题,脑洞开一开,才有各种新体验。比如,百度把语音输入放进自家产品中,包括手机百度、百度地图、百度输入法。

再比如,百度最近还把度秘放进各类硬件,变成“小度机器人人机语音交互点餐”,已在上海肯德基旗舰店工作,可远距离随时应答点餐。后者则已经在诸多内容记录、智能客服、视频转写等应用场景表现出巨大的想象空间。

来自斯坦福大学的人工智能专家James Landay也分享了一项与百度合作的最新研究成果,该研究发现,智能手机在语音输入时,速度比键盘输入快3倍。他表示,“近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度和准确性都有了进步。”

百度开放4项语音技术,人机如何交互就看开发者的脑洞了

百度语音开放平台目前的合作伙伴已涵盖多个领域和场景,包括智能手机领域的联想、中兴;智能家居领域的长虹智能电视、康佳智能电视、SONY智能电视;汽车行业的特斯拉、途胜;智能设备领域的惠普、艾米通讯;智能服务领域的携程、手机QQ阅读等。

在“爱奇艺”手机客户端,借助百度语音开放平台,每天有百万以上的爱奇艺用户使用语音搜索,其中80%以上转化为有效点击。

《读者》杂志也已经使用百度情感语音为旗下杂志制作语音版。读者甘肃数码科技有限公司总经理金大时说,读者“数字农家书屋”已在甘肃庆阳市试点成功,覆盖65个新农村,“很多不识字的老年人和留守儿童,语音合成让他们也享受到了阅读的乐趣。”

百度语音开放平台自2013年10月上线以来,每日在线语音识别要求从2013年的500万上升到今天的1亿4千万,在线语音合成每日请求达2亿,开发者数量超过14万。

百度方面表示,百度语音识别准确率目前达97%,今年2月,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术。包括语音技术在内的百度大脑,入选2016第三届乌镇世界互联网大会15大领先科技成果。






原文出处:科技行者
转载请与作者联系,同时请务必标明文章原始出处和原文链接及本声明。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
26天前
|
人工智能 开发框架 自然语言处理
取人类与大模型之长,人机协作式智能软件开发框架AgileGen来了
AgileGen是一种结合敏捷方法与AI的智能软件开发框架,旨在解决用户需求不全面和语义一致性问题。它使用Gherkin语言确保需求和代码的一致性,并引入人类与AI合作模式,让AI处理重复任务,人类专注于创造性决策。AgileGen还通过记忆池机制提升新用户的熟悉度和减少错误。实验表明,AgileGen提高了16.4%的开发效率和用户满意度。然而,它依赖用户清晰表达需求,并涉及隐私和数据安全挑战。论文链接:https://arxiv.org/abs/2407.15568
60 21
|
3月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
268 0
|
机器学习/深度学习 自然语言处理 机器人
人机自然交互平台技术及应用 | 学习笔记
快速学习 人机自然交互平台技术及应用
319 0
人机自然交互平台技术及应用 | 学习笔记
|
算法 机器人 程序员
|
自然语言处理 监控 机器人
智能语音机器人系统带给你高效率的工作
一.服务管理层 服务管理层在智能语音机器人系统上为企业提供丰富的增值服务,包括业务开发管理服务、服务监控服务。业务开发管理服务为业务人员提供业务编辑的管理界面,方便其对业务流程进行编辑,如业务人员可以通过话术编辑和组件拖拽的方式构建电话呼叫对话流程图。服务监控服务则主要针对语义解析引擎当前配置信息的管理与设置,实时对系统的运行数据进行统计分析。 一、智能业务层   智能业务层是智能语音机器人系统的核心层,是系统具备机器智能呼叫/接听功能的关键所在,包括业务流程对话管理以及语义解析引擎两大模块。业务流程对话管理又包括业务解析和对话管理子模块。业务解析子模块实现对本地业务脚本文件或业务开发管理服务
|
数据可视化 流计算 智能硬件
前沿︱视觉语言:可穿戴设备通知系统的福音
前沿︱视觉语言:可穿戴设备通知系统的福音
前沿︱视觉语言:可穿戴设备通知系统的福音
|
人工智能 自然语言处理 搜索推荐
决定智能语音助手成败的,也许并只不是技术!
决定智能语音助手成败的,也许并只不是技术!
286 0
决定智能语音助手成败的,也许并只不是技术!
|
人工智能 自然语言处理 算法
唇语识别真会是语言交互的终极战场?
在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技——唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。
唇语识别真会是语言交互的终极战场?
|
新零售 人工智能 自然语言处理
剧透 | 未来人机交互方式原来是这样的...
云栖社区将于2018年3月31日在北京中关村创业大街3W咖啡举办一场《未来人机交互技术沙龙》,届时将有4位行业顶级专家对人机交互技术进行全方位的解读。
3530 0