人机如何交互就看开发者的脑洞了

简介:

在今年早些时候,百度曾经利用情感语音合成技术还原了张国荣声音,完成了一场“张国荣”与粉丝的“隔空对话”,从粉丝们的普遍反应来看,效果是可以的。而这只是百度语音的技术之一。

昨天,百度语音开放平台上线三周年,百度公司首席科学家吴恩达对外介绍了百度四项最新语音技术——情感合成、远场方案、唤醒二期技术和长语音方案,这些技术将免费开放给用户和开发者。

百度开放4项语音技术,人机如何交互就看开发者的脑洞了

“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示。

因为语音技术的加强,吴恩达对人工智能的未来很有信心,陪伴机器人、个性化私教、音乐作曲、机器人医生都不是说说而已,人工智能的技术创造了很多可能,百度没有办法探索这些可能,所以就做一个背后的技术推手:“希望可以支持你们在非常有潜力的项目上探索,有非常好的结果。”

比如,开发者可以利用新的接口,使语音识别距离增加到3-5米,将设备的语音唤醒率提升到95%以上同时更省电误报更少,或提升长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。

百度希望这些技术能解决用户在语音交互场合中普遍困扰的一些关键问题,脑洞开一开,才有各种新体验。比如,百度把语音输入放进自家产品中,包括手机百度、百度地图、百度输入法。

再比如,百度最近还把度秘放进各类硬件,变成“小度机器人人机语音交互点餐”,已在上海肯德基旗舰店工作,可远距离随时应答点餐。后者则已经在诸多内容记录、智能客服、视频转写等应用场景表现出巨大的想象空间。

来自斯坦福大学的人工智能专家James Landay也分享了一项与百度合作的最新研究成果,该研究发现,智能手机在语音输入时,速度比键盘输入快3倍。他表示,“近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度和准确性都有了进步。”

百度开放4项语音技术,人机如何交互就看开发者的脑洞了

百度语音开放平台目前的合作伙伴已涵盖多个领域和场景,包括智能手机领域的联想、中兴;智能家居领域的长虹智能电视、康佳智能电视、SONY智能电视;汽车行业的特斯拉、途胜;智能设备领域的惠普、艾米通讯;智能服务领域的携程、手机QQ阅读等。

在“爱奇艺”手机客户端,借助百度语音开放平台,每天有百万以上的爱奇艺用户使用语音搜索,其中80%以上转化为有效点击。

《读者》杂志也已经使用百度情感语音为旗下杂志制作语音版。读者甘肃数码科技有限公司总经理金大时说,读者“数字农家书屋”已在甘肃庆阳市试点成功,覆盖65个新农村,“很多不识字的老年人和留守儿童,语音合成让他们也享受到了阅读的乐趣。”

百度语音开放平台自2013年10月上线以来,每日在线语音识别要求从2013年的500万上升到今天的1亿4千万,在线语音合成每日请求达2亿,开发者数量超过14万。

百度方面表示,百度语音识别准确率目前达97%,今年2月,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术。包括语音技术在内的百度大脑,入选2016第三届乌镇世界互联网大会15大领先科技成果。






原文出处:科技行者
转载请与作者联系,同时请务必标明文章原始出处和原文链接及本声明。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
1月前
|
搜索推荐 开发工具 Android开发
打造个性化Android应用:从设计到实现的旅程
【10月更文挑战第26天】在这个数字时代,拥有一个能够脱颖而出的移动应用是成功的关键。本文将引导您了解如何从概念化阶段出发,通过设计、开发直至发布,一步步构建一个既美观又实用的Android应用。我们将探讨用户体验(UX)设计的重要性,介绍Android开发的核心组件,并通过实际案例展示如何克服开发中的挑战。无论您是初学者还是有经验的开发者,这篇文章都将为您提供宝贵的见解和实用的技巧,帮助您在竞争激烈的应用市场中脱颖而出。
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
107 0
|
4月前
|
Swift iOS开发 UED
【绝妙创意】颠覆你的视觉体验!揭秘一款iOS应用中令人惊叹的自定义动画效果,带你领略编程艺术的魅力所在!
【8月更文挑战第13天】本文通过一个具体案例,介绍如何使用Swift与UIKit在iOS应用中创建独特的按钮动画效果。当按钮被按下时,其形状从圆形变化为椭圆形,颜色则从蓝色渐变为绿色;释放后,动画反向恢复原状。利用UIView动画方法及弹簧动画效果,实现了平滑自然的过渡。通过调整参数,开发者可以进一步优化动画体验,增强应用的互动性和视觉吸引力。
61 7
|
7月前
|
数据采集 运维 Kubernetes
我在平台与 AIGC 的交互组件一些设计经验
这里阐述以平台运营为主,这里假设说已经有一个平台,包括技术、数据、运维、管理、运营等基础设施的能力。 这个设计原来主要的问题是超自动化的提升,结合 LLM 为了更好的实现,在这个过程中,也包含了一些自主的感知和学习的能力,带有智能体的一定的特征。在前期的研究中也是不断的查看和摸索了很多的开源项目,包括一出来就热门的 Github 项目,但在使用遇到的情况更多的是还只是属于一些例子或者带有很多不稳定因素,并没有说见到能达到较稳定的层面。
|
机器学习/深度学习 自然语言处理 机器人
人机自然交互平台技术及应用 | 学习笔记
快速学习 人机自然交互平台技术及应用
304 0
人机自然交互平台技术及应用 | 学习笔记
|
自然语言处理 监控 机器人
智能语音机器人系统带给你高效率的工作
一.服务管理层 服务管理层在智能语音机器人系统上为企业提供丰富的增值服务,包括业务开发管理服务、服务监控服务。业务开发管理服务为业务人员提供业务编辑的管理界面,方便其对业务流程进行编辑,如业务人员可以通过话术编辑和组件拖拽的方式构建电话呼叫对话流程图。服务监控服务则主要针对语义解析引擎当前配置信息的管理与设置,实时对系统的运行数据进行统计分析。 一、智能业务层   智能业务层是智能语音机器人系统的核心层,是系统具备机器智能呼叫/接听功能的关键所在,包括业务流程对话管理以及语义解析引擎两大模块。业务流程对话管理又包括业务解析和对话管理子模块。业务解析子模块实现对本地业务脚本文件或业务开发管理服务
|
数据可视化 流计算 智能硬件
前沿︱视觉语言:可穿戴设备通知系统的福音
前沿︱视觉语言:可穿戴设备通知系统的福音
前沿︱视觉语言:可穿戴设备通知系统的福音
|
新零售 人工智能 自然语言处理
剧透 | 未来人机交互方式原来是这样的...
云栖社区将于2018年3月31日在北京中关村创业大街3W咖啡举办一场《未来人机交互技术沙龙》,届时将有4位行业顶级专家对人机交互技术进行全方位的解读。
3517 0