在今年早些时候,百度曾经利用情感语音合成技术还原了张国荣声音,完成了一场“张国荣”与粉丝的“隔空对话”,从粉丝们的普遍反应来看,效果是可以的。而这只是百度语音的技术之一。
昨天,百度语音开放平台上线三周年,百度公司首席科学家吴恩达对外介绍了百度四项最新语音技术——情感合成、远场方案、唤醒二期技术和长语音方案,这些技术将免费开放给用户和开发者。
“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示。
因为语音技术的加强,吴恩达对人工智能的未来很有信心,陪伴机器人、个性化私教、音乐作曲、机器人医生都不是说说而已,人工智能的技术创造了很多可能,百度没有办法探索这些可能,所以就做一个背后的技术推手:“希望可以支持你们在非常有潜力的项目上探索,有非常好的结果。”
比如,开发者可以利用新的接口,使语音识别距离增加到3-5米,将设备的语音唤醒率提升到95%以上同时更省电误报更少,或提升长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。
百度希望这些技术能解决用户在语音交互场合中普遍困扰的一些关键问题,脑洞开一开,才有各种新体验。比如,百度把语音输入放进自家产品中,包括手机百度、百度地图、百度输入法。
再比如,百度最近还把度秘放进各类硬件,变成“小度机器人人机语音交互点餐”,已在上海肯德基旗舰店工作,可远距离随时应答点餐。后者则已经在诸多内容记录、智能客服、视频转写等应用场景表现出巨大的想象空间。
来自斯坦福大学的人工智能专家James Landay也分享了一项与百度合作的最新研究成果,该研究发现,智能手机在语音输入时,速度比键盘输入快3倍。他表示,“近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度和准确性都有了进步。”
百度语音开放平台目前的合作伙伴已涵盖多个领域和场景,包括智能手机领域的联想、中兴;智能家居领域的长虹智能电视、康佳智能电视、SONY智能电视;汽车行业的特斯拉、途胜;智能设备领域的惠普、艾米通讯;智能服务领域的携程、手机QQ阅读等。
在“爱奇艺”手机客户端,借助百度语音开放平台,每天有百万以上的爱奇艺用户使用语音搜索,其中80%以上转化为有效点击。
《读者》杂志也已经使用百度情感语音为旗下杂志制作语音版。读者甘肃数码科技有限公司总经理金大时说,读者“数字农家书屋”已在甘肃庆阳市试点成功,覆盖65个新农村,“很多不识字的老年人和留守儿童,语音合成让他们也享受到了阅读的乐趣。”
百度语音开放平台自2013年10月上线以来,每日在线语音识别要求从2013年的500万上升到今天的1亿4千万,在线语音合成每日请求达2亿,开发者数量超过14万。
百度方面表示,百度语音识别准确率目前达97%,今年2月,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术。包括语音技术在内的百度大脑,入选2016第三届乌镇世界互联网大会15大领先科技成果。