Alexa 一键下单不好用?蓦然认知推出语音对话购物

简介: 他们会继续将语音与生活服务结合在一起,更好的完善语音对话购物。MOR 也会集成于汽车、家居等硬件设备上,为用户提供人机对话及决策服务,打造一个可快速移植、实时学习、多场景融合的对话交互及决策系统。

“我坚定的不看好智能音响作为语音的入口,Echo 自己也不看好,要不然干嘛推出 Echo Show?” 蓦然认知联合创始人龚思颖反问道。

在她看来,现在语音入口的设备,包括电视、手表和眼镜,最终的形态现在依然没有定论。但她坚信的一点是,要让语音真正落地,成为被用户所接纳的最常用交互方式,最终要解决的是用户头部需求。 

“不论是查天气还是查时间,都非头部需求,这些需求只是一种测试语音助手基础功能的最基本条目,而衣食住行是用户的基本需求,沟通需求也是用户的基本需求。许多专注语音的团队都将目标定位在家居、车载等方向上是有道理的,比如在车载环境下,打电话、发短信就是头部需求,而在家居场景下打电话和发短信就没有那么重要了,起码在电视上没那么被需要了。在衣食住行场景下,分别对应着不同需求:语音购物、点餐、订餐馆、订酒店、预订出行飞机票以及景点门票,都是大众的生活服务需求。”她说。

在此基础上,龚思颖告诉雷锋网,最近,蓦然认知做出了第一个语音对话购物服务,用户可以通过对话实现订咖啡、订外卖、购买电影票以及一系列多维度的购物需求。

“我们 9 月 15 日开了一个大 Party,所有的闭环研发人员都有参加,大家围在电视旁用对话买买买,订了晚餐和夜宵,还有周末电影票。本身做闭环的小哥一边演示一边接受询问,产品和测试当场也记下来一些产品改进意见和 Bug 。语音对话闭环就是在不断调试、测试中成长起来的,解决的都是头部需求。 ”

不过,不同于诸如 Magic 这种助理型产品,MOR 全部以 AI 语音交互完成服务,全程无人工干预。据其介绍,其可规模化程度高,运营成本低。

现有的服务闭环是基于屏幕的手触操作,在手触之外扩展了语音对话的交互,可以满足用户在更多生活场景下、不同需求下的交互方式。以订咖啡为例,只需说上一句“给我订一杯拿铁”,MOR 就可以将咖啡送达到用户手上,如果你有“加奶不加糖”的需求,也只需要再说一句需求即可。当然,语音交互还能实现多硬件移植,没有屏幕也可以实现交互。

不过,GUI 与 VUI 结合才能为用户带来更好的体验。 虽然无屏交互在 Alexa 中也曾应用,但它的语音购物为人们所诟病,比如,它只能做到一键购物,购买之前买过的东西,此外,由于屏幕交互的时候是一目十行,速度上明显要快于语音交互,“尤其在音响上用纯语音购物,这种方式就已经被行业认定为是一个失败的案例。”龚思颖说道。

因此,之后的 Echo 则变成以屏幕交互和语音交互相结合,在最近暴风发布的新一代 AI 电视里的语音对话购物与此类似,而它在语义理解部分的技术方案由蓦然认知提供。

不过,GUI 跟 VUI 的结合也面临一些挑战,最难的还是同步问题,但蓦然认知目前也有自己的解决方案去做进一步优化。

“因为中间的语音理解、语义理解就已经很难了,然后你把 VUI 做完之后,它有时不能快速告诉用户想要的结果,你也只能够以语音对话的方式交互。但这样,有的时候我就是觉得我按一下更快,那这个时候就叫 GUI”,如果只做 GUI,就跟传统的方式没有任何区别,龚思颖向雷锋网(公众号:雷锋网)解释说 。

还有一点是要改变用户传统的 GUI 方式,改变用户习惯是一件循序渐进的事,他们要做的就是让语音交互成为主导,从而增加用户黏性。

除了上述问题,龚思颖向雷锋网表示,就上下文对话的语义理解这项技术而言,在整个行业里都是一个难点,“95% 以上的(AI)公司都会被排除在外”,她的隐含意思很明显,另外的 5% 必然有蓦然认知一席之地。其次,如果要解决衣食住行这些庞杂的头部需求,就要有一个强大的知识图谱来支撑,此外,因为要接不同的服务,“系统就要有一套快速可移植的对话模型,而不只是像以前单纯的写规则。”

作为一家在商业模式和市场拥有清晰定位的创业公司,龚思颖表示,蓦然认知今年依然还是瞄准智能车载和智能家居行业,他们在智能车载中的产品在逐渐落地,在未来,他们会继续将语音与生活服务结合在一起,更好的完善语音对话购物。MOR 也会集成于汽车、家居等硬件设备上,为用户提供人机对话及决策服务,打造一个可快速移植、实时学习、多场景融合的对话交互及决策系统。



本文作者:王金许
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
【AI销售助手】告别低成交率,让客户主动找上门!
在销售行业,90%的沟通未能促成交易,令销售人员头疼。AI销售助手应运而生,它不仅帮助寻找潜在客户,还能自动发送产品信息,并监测客户的查看情况。通过深入了解客户需求,销售人员可以制定更有效的策略,显著提升成交率。
|
人工智能 SEO
2分钟用ChatGPT写一篇高质量文章文案,让它告诉你:如何靠短视频赚钱?
2分钟用ChatGPT写一篇高质量文章文案,让它告诉你:如何靠短视频赚钱?
1159 0
|
机器学习/深度学习 人工智能 自然语言处理
尖叫连连!这是谷歌I/O带来的新惊喜:智能助手零延迟对话、3D鲨鱼「上舞台」
北京时间 5 月 8 日凌晨,一年一度的谷歌 I/O 大会在加州山景城如期开幕。今年的大会上,除了常规的安卓 Q 版本更新以外,新手机和「家庭智能设备中心」Nest Hub 显得更加引人注目。而去年惊艳的「能和人打电话的 AI」Duplex 也有了新升级。
169 0
|
人工智能 搜索推荐 大数据
主打在线互动音乐教学,AI音乐学院完成数千万人民币Pre-A轮融资
在线智能互动音乐教学平台AI音乐学院,完成数千万人民币Pre-A轮融资,由基因资本、港粤资本、京北投资等联合投资。
933 0