没有语音交互,不谈智能手表

简介:
   

智能手表的自我修养:自由、安全感、活在当下

一块合格的智能手表,除了可以耍帅看时间外,还应该能够让用户获得生理和心理上的自由:即使双手不接触设备,也能方便地启动设备和发布指令;即使视线并不锁定在屏幕上,也能用眼角的余光快速获得最重要的信息。

同时,智能手表还应能及时推送最相关的资讯,过滤垃圾信息和噪音,给予用户随时在线的安全感,以便用户专注于最重要的事情。没有语音交互,不谈智能手表

简而言之,智能手表不应该是戴在手腕上的缩小版智能手机、另一个信息干扰源,而应帮助用户更好地活在当下,享受生命的真实和美好。

语音交互为何强:简单、直接、零学习成本

智能手表的天然限制(小屏幕、运动行进中的晃动场景)对其人机交互也提出了更高的要求:无论是用户输入还是最终的结果展现,都要简单快速、自然直接。

这样的约束下,没有语音而只有触控的“智能”手表必将会是一场灾难。智能手表的小屏幕决定了其不适合精确的键盘输入及触控手势,试想一下,在那块伸出两根纤细的手指就能几乎遮挡整个表盘的狭小屏幕上,要求用户用指尖去进行小心翼翼的精确点击输入,那将会是多么尴尬;当行走在寒风中,双手提着大包小包的购物袋时,你不太可能腾出双手去触摸手表;另一些场景下,不合理的交互方式甚至会危及生命安全。

比如在驾驶汽车的时候,用户需要的是精神目光集中在路面,双手随时紧握方向盘和换挡机构。这时候用手去操作智能设备,哪怕是多一秒种的分心,都可能换来生命的代价…… 在这种情况下,如何减少触摸操作,解放双手,与机器进行自然直接的交互便显得尤为重要。

 日常生活中,语言是人与人交流的最常用和直接方式。在电影《星际穿越》中男主角马大少与机器人TARS 对话式的交互令人印象深刻。即使身陷五维空间,马大少依然可以用自然语言向TARS咨询信息和下达自然语音指令。电影虽然虚构,但这样的交互着实令人神往。自然语言对话式的交互,即使是老人和小孩也无需学习。用户可以“无感”地唤醒设备,“无缝”地获取信息、给予指令,毫无生涩和违和感,这才是最好的智能设备交互方式。

从科幻回到现实,目前的智能手表大多仍以触控交互为主,尽管Android Wear和Apple Watch都在有意简化触控并引导用户更多地使用语音交互,但功能仍未尽善尽美,尤其在国内Google Now和Siri的中文识别体验更是不尽如人意。谷歌苹果尚且如此,更不用说其它一些备受用户“神吐槽”的各种语音交互软硬件了。

没有语音交互,不谈智能手表

那么问题来了,既然语音是最简单直接的交互方式,为何现在难以成为主流,甚至仍被用户诟病呢?

 真正的症结在于目前的语音交互技术尚不能达到人类的预期。由于环境噪音、网络不稳定等先天因素,使得很多时候系统并不能很好地接收用户的语音输入。即使系统听到了用户的语音并成功将其转化为准确的文本(语音识别),目前的算法也不能完全理解用户的真实本意(即语义识别),更不用说后续的准确搜索执行和结果呈现了。

目前市面上很多所谓的人工智能语音,大部分还是要求用户按照预置命令模板进行交互,用户需要付出较大的学习成本来适应机器。比如在某些所谓的“智能”车载设备上,用户必须说先说“导航”启动导航界面,然后说“北京”、“某区某街道”, 机器才能一步步识别找到目的地。如果用户直接说 “我要去某地”,机器是无法识别你的意图的。甚至有时用户已经按照预制模板来进行交互了,却仍然得不到想要的结果。太多时候,机器听不清楚,也听不懂用户在说什么。这样的人工伪智能,本身技术不成熟,营销宣传的时候又盲目夸大,导致了用户对语音交互产品的进一步失望。

渐进式革命:短期“触控+初级语音”,长期“全智能语音”

显然,生硬的预制语音命令肯定无法满足用户的需求。真正的人工智能语音交互,应该让机器来学习和适应人,而不是让人去适应机器。比如,机器应该可以在识别当下地点和时间的基础上,基于用户历史操作数据,进行用户喜好学习,深入地理解用户的语音输入,给出最佳的答案。用户无需多说,机器便可以准确判断用户意图并高效地执行。这样的交互,才是“心有灵犀,说到做到”,才能算真正的智能语音交互。

短期来看,智能手表交互采取的方式将是传统的触控交互与初级的智能语音交互的结合。触控操作仍将应用于绝大多数场景,但在一些特定场合简单的任务下,语音交互可以让用户更加快捷、方便、优雅的实现操作目的。第一代智能手表的领军产品,可以没有复杂成熟的语音交互,但至少需要有初级的语音系统,可以做到与触控操作并存互补。而长期来看,智能语音交互必将逐步取代触摸等传统交互方式, 实现人与人对话式的自然语言交互。

其实,让用户使用语音与机器系统交互并不存在习惯问题,因为自然语言交互本身的学习成本几乎为零。关键在于语音交互是否真正可为用户带来便利,因为人的“懒惰”天性永远会趋向选择最小投入,最大产出的操作路径。这种例子其实已经不在少数:一旦你习惯了iPhone上的TouchID指纹解锁、Macbook上的多点手势操作,便会觉得“输密码”和“点鼠标”是种非常“反人性”的交互;一旦你习惯了摄像头“扫一扫” 二维码,便不会再喜欢“ Ctrl C + Ctrl V”的粘贴复制网站地址;一旦你习惯了手机支付宝上简单快捷的支付,就会开始厌烦用银行卡或者现金进行繁琐的交易... … 未来,一旦你习惯了一抬手问“明天会下雪吗?”,还会愿意回到手机上从无数的App中打开天气程序去查看天气吗?

什么时候是语音技术的奇点?

能否尽快的实现真正的智能全语音交互,在根本上还是取决于技术的进步和产品的完善。用户看似简短的一个个语音指令输入的背后涉及到了整合优化语音识别、自然语言处理、机器学习、大数据、精准搜索等诸多技术难点,难度可想而知。令人鼓舞的是,过去的几年内,人工智能语言技术已经有了长足的发展。现在的语音识别技术在大多数时候已经能够比较准确的识别用户的语言文字。随着技术和产品的高速成熟和发展,全智能语音时代的到来绝不会太久。智能语音技术“奇点爆发”之时,便是传统触摸操作和繁琐的App交互的终结之日。

总之,智能手表作为语音交互的最合适应用场景之一,从诞生的第一天起,就注定离不开智能语音技术。作为狂热的极客和理性的用户,我们允许一块智能手表目前暂时没有真正的“智能语音”,但我们绝不接受因噎废食,退而求其次的妥协。因此,没有语音交互,别跟我谈智能手表。

本文主要作者是林宜立(linyili@mobvoi.com),出门问问产品经理,对智能手表有兴趣的同学,可以加入他们的Android Wear 智能手表QQ群369838318

出门问问是一家专注于人工智能的科技创业公司,它集合了世界顶尖的语音识别、语义分析和数据分析背景的技术专家,利用自主研发的语音识别、语义分析及搜索技术,打造领先的中文智能语音交互技术,重新定义人机交互方式。

 
  本文作者: 吴德新

本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
监控 iOS开发 MacOS
解决启动 Parallels Desktop 之后 macOS 没声音的问题
解决启动 Parallels Desktop 之后 macOS 没声音的问题
1438 0
解决启动 Parallels Desktop 之后 macOS 没声音的问题
|
存储 数据挖掘 虚拟化
vsan数据恢复—vsan缓存盘故障导致虚拟机磁盘文件丢失的数据恢复案例
VMware vsan架构采用2+1模式。每台设备只有一个磁盘组(7+1),缓存盘的大小为240GB,容量盘的大小为1.2TB。 由于其中一台主机(0号组设备)的缓存盘出现故障,导致VMware虚拟化环境中搭建的2台虚拟机的磁盘文件(vmdk)丢失。
|
8月前
|
自然语言处理 语音技术
Interspeech 2025「语音无障碍项目」挑战赛落幕
在针对言语障碍患者的语音识别比赛中,多支参赛队的ASR模型在性能上超过基线模型whisper-large-v2
290 0
|
8月前
|
网络虚拟化
管理型交换机通过VLAN划分实现不同IP跨网段通信配置方法
管理型交换机应用场景丰富,如果要实现不同IP跨网段通信(比如172.22.106.X和192.168.100.X实现通信),通过VLAN划分是可以满足,下面分享基于弱三层交换机RTL9301方案核心模块SW-24G4F-301EM配置方法!
1281 2
|
10月前
|
算法 Unix 程序员
程序员行业的学历门槛与天赋密码:揭开大厂招聘的真相·优雅草卓伊凡
程序员行业的学历门槛与天赋密码:揭开大厂招聘的真相·优雅草卓伊凡
574 3
程序员行业的学历门槛与天赋密码:揭开大厂招聘的真相·优雅草卓伊凡
|
机器学习/深度学习 移动开发 JavaScript
Web实时通信的学习之旅:SSE(Server-Sent Events)的技术详解及简单示例演示
Web实时通信的学习之旅:SSE(Server-Sent Events)的技术详解及简单示例演示
7326 0
|
vr&ar 开发工具 图形学
Pico Neo 3教程☀️ 五、开发者工具:实时预览工具(Preview Tool)
Pico Neo 3教程☀️ 五、开发者工具:实时预览工具(Preview Tool)
|
存储 Java 数据库连接
数据库三范式详解及应用
数据库三范式详解及应用
|
存储 C++
C/C++中的整数除法运算与汇编指令DIV和IDIV
C/C++中的整数除法运算与汇编指令DIV和IDIV
695 1
|
关系型数据库 MySQL 数据库连接
Go语言中使用sqlx来操作事务
在应用中,数据库事务保证操作的ACID特性至关重要。`github.com/jmoiron/sqlx`简化了数据库操作。首先安装SQLX和MySQL驱动:`go get github.com/jmoiron/sqlx`和`go get github.com/go-sql-driver/mysql`。导入所需的包后,创建数据库连接并使用`Beginx()`方法开始事务。通过`tx.Commit()`提交或`tx.Rollback()`回滚事务以确保数据一致性和完整性。
287 0