《Kinect应用开发实战:用最自然的方式与机器对话》一第1章 自然人机交互技术漫谈1.1 自然人机交互技术的发展

简介: 本节书摘来自华章出版社《Kinect应用开发实战:用最自然的方式与机器对话》一书中的第1章,第1.1节,作者 余涛,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 自然人机交互技术漫谈

自然用户界面(Natural User Interface, NUI)是指一类无形的用户界面。“自然”一词是相对图形用户界面(GUI)而言的,GUI要求用户必须先学习软件开发者预先设置好的操作,而NUI则只需要人们以最自然的交流方式(如语言和文字)与机器互动。直观地说,就是使用NUI的计算机不需要键盘或鼠标。
—维基百科
这些自然的、有响应的交互,向我们展示了如何让机器的智能与协作力自然地发挥出来,营造出真正的“机器+人”的共生系统,也就是最佳的人机交互。设计是有意识对环境的塑造,从而满足个人和社会的需求。
—Donald A. Norman,《未来产品的设计》

1.1 自然人机交互技术的发展

2008年,比尔盖茨提出“自然用户界面”(Natural User Interface)的概念,并预言人机交互在未来几年内会有很大的改观,键盘和鼠标将会逐步被更为自然的触摸式、视觉型以及语音控制界面所代替。与此同时,另外一种提法— “有机用户界面”(Organic User Interface)也开始悄然兴起,其包括生物识别传感器、皮肤显示器,乃至大脑与计算机的直接对接,这些技术无疑都将给人类的生活带来重大影响。随着计算机技术和传感器的普遍应用,现实世界也逐步出现其“数字版”的一面,而自然人机交互技术正是现实与虚拟世界之间的桥梁。
本章将结合一些生动例子来说明这些自然人机交互技术的最新发展,同时希望你在阅读中获得新的创作灵感。

1.1.1 第六感设备:技术的组合创新

有这样一期TED,麻省理工学院的Pranav Mistry极富想象力地将手势识别、摄像头、投影和云计算结合在一起,并命名为“第六感设备”。这种设备不用携带任何大尺寸的东西,所有的终端都浓缩在胸口的挂饰和贴在手指的“色环”中:当你想要拍照时,只需要用四根手指摆出一个框的形状;当你想要玩赛车游戏时,只需用手抓住一张白纸,通过投影仪它会“摇身一变”成为显示屏,你可通过改变纸张的倾斜角度来控制方向,如图1-1所示。
image

“第六感设备”通过普通摄像头对四根不同色环的手指进行手势识别,这四根手指即为关键点。这种方法有效且价格低廉。一方面,微型投影仪实现了一个“信息输出”的功能,它可以把手机键盘界面投影到掌心,另外一只手指通过“色环”捕捉“点击”操作,如图1-2所示。另外一方面,投影仪也是“增强现实”表演的道具。图1-3所示是用户展开一张报纸,大标题下的静态图片突然“栩栩如生”起来,变成了一段动态的新闻视频。这其中的奥秘是:首先通过摄像头“OCR”技术识别报纸的标题,然后智能手机访问“云端”的在线视频,最后投影到报纸上。

image

“第六感设备”中的任何一项技术都为众人熟知,属于一种“组合创新”,它用简单、廉价的方式创造了令人耳目一新的用户体验。
关于“第六感设备”的更多信息,读者可访问Parnav Mistry的个人页面,地址为:http://www.pranavmistry.com/
“第六感设备”通过捕捉手指色环来控制方向。Kinect有些则更进一步,你不用戴色环,只需用手在空气中把握“虚拟”的方向盘即可,如图1-4所示。

image

关键字:第六感设备、组合创新、手势识别、增强现实

1.1.2 追影技术:摄像头也疯狂

再看一款iPhone/iPad上的创意游戏—“稻草人大战乌鸦”(Crows Coming)。这款游戏是由清华大学的学生创作的,其玩法很简单:通过人体左右晃动控制稻草人,驱赶偷南瓜的乌鸦。这是一款入门级的“体感游戏”,比用手操作的传统游戏更有趣。其原理是通过前置摄像头,结合“人脸跟踪”的计算机视觉算法来识别出玩家的动作,如图1-5所示。原来普通摄像头也能进行简单的体感操作。
image

微软硬件曾推出一项技术,打破摄像头产品多年以来功能单一不变的格局,这就是在微软旗下多款产品上所采用的“追影”(CamBot)技术。通过该技术,可以让用户通过手势来对PowerPoint 、Windows Photo Viewer及Windows Media Center等软件进行操作。
此外,Flutter是一个Mac上的应用,通过摄像头你可以用手势控制Spotify和iTunes的播放。
Google也做了类似的尝试,推出了Gmail Motion。你需要一台内置摄像头的笔记本电脑来体验这项技术,目前只支持Google Chrome或在3.5版本以上的Firefox浏览器。在Gmail设置页面中启用“Gmail Motion”后,Gmail将在你登录时启用内置摄像头,通过空间跟踪算法识别侦测到的动作,用来浏览、阅读、回复、转发邮件,如图1-6所示。长期保持坐姿的办公人员,可以在处理工作邮件的同时伸展下筋骨,这会不会也是Gmail Motion的设计初衷呢?而我们又何乐而不为呢?

image

摄像头及视频监控在现实中被广泛应用。结合计算机视觉技术、运动目标图形识别算法,可以通过固定道口的摄像头来监控车辆流量,如图1-7所示。
image

另外,这项技术也可用来统计大型场馆会议通道出入口的人流情况和人群密度,统计医院大厅目前候诊挂号人流以及火车站售票大厅的排队情况。
基于普通摄像头的图形识别,会受到环境光照的制约。但Gmail Motion从体验的角度而言,一定程度上是接近Kinect的体感操作。后面我们在介绍Kinect时,也会举一些类似的例子,但实现的方式不一样,比如用手在空气中翻页操纵PPT、对老年人的监护等。
关键字:计算机视觉运动目标跟踪、CamBot、Flutter、Gmail Motion

1.1.3 虚拟现实:真实的体验场景

谈到虚拟现实,这不是一个新鲜的概念,i-Max电影也可以理解为这一范畴。通过这项技术,你可以更为真实地沉浸在虚拟的现实中,比如漫步故宫、海底珊瑚礁探秘、飞行训练等。
Google的《街景计划》的Google Earth可以延伸到海底;微软的Virtual Earth、WorldWide Telescope,甚至让你能用虚拟的天文望远镜观测太空。
微软的经典模拟飞行游戏,后期甚至去掉了模拟(Simulator)的字样,如图1-8所示。

image

目前飞行舱模拟器被广泛地应用在军事训练和民航飞行培训中,它采用虚拟现实技术,通过创建和模拟呈现真实飞行过程中飞机的状态、飞行环境等。结合视景系统以及音响系统,用户可以通过视觉、听觉及触觉等多种传感途径与设备进行交互,从而更逼真地观测以及达到犹如真实操纵飞机的训练目的。
对于含3D物体或数据的相关应用而言,像CAD/CAM设计创作工具、GIS绘图、石油勘探、矿区规划、3D电影制作等,3D显示为其使用性能的提升带来了极大希望。而显示器仅仅是输出设备,位于平面上的鼠标作为输入设备却无法很好地转化进3D空间。是否可以用手和身体来与虚拟的场景进行互动呢?Kinect为这种虚拟现实的体验提供了可能,如图1-9所示。
image

关键字:虚拟现实、飞行舱模拟器、空间体感操作

1.1.4 增强现实:真实与虚拟的叠加

增强现实(Augmented Reality,AR)又称混合现实,它通过信息技术,在同一时空,将真实的环境和虚拟的物体实时地叠加。
举个例子,有款Augmented Outdoors的手机应用软件。当用户眺望远处的雪山时,使用手机摄像头取景,屏幕的雪山旁边叠加了雪山的名称、高度和距离用户的距离信息。这项技术通常结合GPS空间地理位置信息、陀螺仪方位信息和图像识别技术一同完成混合现实,如图1-10所示。
类似的例子还有iPhone/iPad上的StarWalk软件。你可以在抬头观察星空的同时,了解那片天空的星座信息。这种增强现实只是结合了GPS和陀螺仪方位信息,如图1-11所示。

image

如果你看过《碟中谍4》,就会对影片中的“间谍眼镜”印象深刻—它就像是个隐形眼镜一样,外观看出不来,眨眼即可拍照。通过隐形眼镜可以了解周边环境信息,甚至知道前方的美女是一个冷血杀手。
Google也在开发一款增强现实的眼镜Project Glass,其集智能手机、导航、相机为一体,并结合了其强大的搜索引擎。它会告诉你眼前建筑物的名称、天气和交通运输路线等实时信息。这意味着你也可以拥有《碟中谍4》中阿汤哥那样的眼镜了。
增强现实在自然人机交互领域也是逐渐升温的,后面我们会举一个有趣的增强现实的开发案例,即通过Kinect摄像头来创造《星球大战》中的“光剑”效果,如图1-12所示。
此外,随着裸眼3D技术的不断成熟和市场化,未来的Kinect体感游戏和增强现实眼镜或头盔会结合起来,进而给玩家身临其境的体验。
另外,随着电子商务的日益普及,虚拟试衣镜的需求逐渐升温,Kinect的3D人体测量使其成为可能,并已有实际的案例应用,如图1-13所示(在后面的Kinect企业应用展望章节会进行介绍)。
关键字:增强现实、Google Project Glass 、Kinect虚拟试衣镜

image

1.1.5 多点触摸:信息就在指尖

iPhone、iPad的多点触摸已普遍渗入到人的日常生活中,几乎将现在所有的智能手机的交互方式都更新了一遍。
事实上,微软才是多点触控技术的先行者,Microsoft Surface比iPad更早提供了多点触控(Multi-Touch)的功能,可以让多人同时使用Surface多点触控,而iPad只支持一个人的操作。比如把信用卡放在Surface上,用户则可以选择付账等下一步操作。Surface甚至可以识别一瓶可乐或识别你的智能手机,来交互音乐或照片(见图1-14),这有些类似于NFC(近场数据通信)。
Surface这类交互设备应属于机器视觉交互的范畴,和iPhone、iPad的原理不同,它是由位于底部的多个摄像机实时获取人手指的位置和运动信息的,然后进行分割识别处理而得到交互语义,如图1-15所示。

image

电影《007:大破量子危机》也出现过Surface的场景:在007总部中情六局的办公室里,数名特工围着一个可触摸的“办公桌”(就是Microsoft Surface)进行讨论。
此外,微软研究团队正在开发一种名为OmniTouch的新技术,通过“3D动作感应”技术和一个投影仪可以让日常物体的表面变成一个触控屏。该项技术与Kinect的体感技术非常相似。
关键字:多点触摸、iPhone、iPad、Microsoft Surface

1.1.6 语音识别:从ViaVoice到Siri

大约在计算机芯片还是MMX166的奔腾时代时,IBM就推出过一款ViaVoice的语音识别软件,提起它多少有点技术考古的意味。比它更早的就是电影《2001太空漫游》中的片段。下面的对话会不会让你出一身冷汗?也许若干年后真正的HAL9000出现的时候,Siri会被追认为前身,如图1-16所示。
Dave Bowman: Open the pod bay doors, HAL.(打开求生舱门,HAL)
HAL9000: I'm sorry Dave, I'm afraid I can't do that. Are you happy now? (抱歉,我恐怕不能这么做。你现在开心吗?)

image

HAL9000通过“唇语”读懂玻璃舱后宇航员的对话,也是影片中精彩的一段。研究表明,基于视觉识别的唇语有助于提高语音识别的命中率和性能。
Siri的出现,再次唤起用户对自然语音交互的渴望。
目前,语音识别的发展在呼叫中心也得到了长足的应用,将原有烦琐的按键式提示改成更具人性化的交谈式语音交互。比如,你可以拿起电话直接说:“我要挂失信用卡”,而不用枯燥地按照话音数字提示去操作按键。
你也许有过这样的体验,听到一首动听的歌,迫切想知道它的名称。现在微软最新的Windows Phone 7.5手机里就集成了这一功能(Bing Audio),你让手机也听上一小段,它就会告诉你音乐的演唱者等相关信息,如图1-17所示。这是一种声纹特征分析的技术,很酷,不是吗?类似的软件还有Shazam。
后面在介绍Kinect for Windows SDK开发时,会介绍如何结合Microsoft Speech API进行语音控制开发。此外,语音识别还可以利用到微软的Tellme语音识别云服务。

image

关键字:语音识别、Siri、Bing Audio、Tellme

1.1.7 眼球跟踪:从霍金的座椅谈起

霍金有一个神奇的座椅,上面安装有一个眼球跟踪红外感应器,他通过眨眼来和外界交流,用眼球控制计算机造句,然后语音合成后发音,如图1-18所示。
image

眼球跟踪技术也被用在了其他方面,比如日本佳能公司生产的高端相机可以用眼球来控制相机的对焦点。眼球跟踪技术也可以让屏幕理解我们的阅读意图。例如,到了文章的末尾时自动翻页;凝视某一个单词时,会显示该单词的含义。
目前,眼动跟踪技术可以帮助残障人士操作计算机、帮助眼科医生进行眼部疾病诊断、检测婴幼儿的认知能力。在医院的重症监护室,一些无法用语言表达意愿的危重病人,也可以通过该项技术和医护人员交流。
眼球追踪技术极具潜力,在个人设备领域能够带来附加价值。目前,瑞典Tobii眼球追踪技术公司有相关技术和成熟产品。
此外,微软的产品在开发中有一个交互体验测试的环节,也采用了眼球跟踪技术来分析软件操作的热点,归纳出用户特别关注的信息和功能按钮,从而进一步改进用户体验。一些大型社交网站如Facebook也利用眼球跟踪技术进行信息热点分析。如图1-19所示,个人头像和顶端第一条更新的信息获得了最大的关注度。
为了捕捉眼睛的注视点,眼动跟踪仪发射出不可见的红外线,然后通过传感器采集并分析从眼球反射回来的信号,一般还分虹膜、瞳孔两个不同的层次。综合眼睛颜色和周围环境光,眼动跟踪仪区分“亮瞳”和“暗瞳”并进行亮、暗瞳图像差分和滤波,从而精确跟踪瞳孔的位置、捕捉视线的方向。笔者体验过一款名为《行星乱舞》(Asteroids)的游戏,可以用“目光”击落飞舞的小行星,由此看来“目光”也是一种“光”啊。另外,生活中你一定听说过“激光治疗近视”,该项手术需要精湛的医术,一般手术设备都具备优良的眼球运动跟踪系统,保障激光在眼球光学中心的精准切削。

image

从原理上来看,眼球跟踪和Kinect还真的非常相似。
为了宣传Kinect的潜能,微软曾在E3上公布过一个人工智能小孩—米罗(Milo),如图1-20所示。他通过Kinect理解你的动作和行为,他可以记住你的脸,理解你脸上的表情,他会很有感情地注视着你的眼睛说话。如果他看到你有黑眼圈,甚至会问你是不是熬夜了。他能从你的语气中猜测你的情绪,并做出回应。最惊讶的一幕是,你拿一张纸条递到他面前,米罗会和你交换个眼神,并从游戏里伸手接过你的字条,看你写了什么。这就是Kinect的“眼球跟踪”技术,尽管没有在Xbox游戏中体现。你是不是跃跃欲试呢?

image

关键字:眼球跟踪、霍金座椅、热点分析、激光治疗近视

1.1.8 人脸识别:Photo DNA

人脸识别是个非常有趣的话题。
《碟中谍4》影片一开场就有位特工挂掉,留给同伴的线索是他的iPhone手机。该手机的自动人脸识别系统识别出了偷袭者的杀手身份。前面,我们在谈论增强显示时也提到这样的片段:阿汤哥的“间谍眼镜”提醒前方的美女是一个冷血杀手。背后的技术就是“人脸识别”技术,如图1-21所示。
image

在日常生活中,人脸识别技术也被广泛应用,如在公安、机场、边防口岸、安防、智能门禁、考勤等领域。识别人脸绝非易事。举个例子,在公共安全领域应用,希望通过“人脸识别”来甄别嫌疑犯,这需要在全国流窜犯的数据库中进行实时匹配。大人群中甄别的挑战,一方面在于人脸原始特征采集的质量,以及识别搜索的准确度和效率;另一方面在于同一个人的变化,这是更大的难点。同一个人的面部在不同照明、表情或姿势等因素影响下的变化,有时会致使出现“判若两人”的识别结果。
除了传统的身份识别应用外,比较简单的应用还包括Google Android 4.0系统的面部识别解锁等功能,比如三星的Galaxy Nexus就支持这项功能。人脸识别还可以用作社交网络的相册聚合服务。它可从你好友相册中自动去识别和你相册中出现的人脸有关的照片,比如Facebook等社交网络在照片标签服务中引入面部识别技术,自动事件(活动、聚会)匹配,综合拍摄日期、照片内的人脸、照片颜色识别出同一事件的照片。同样,Windows Live Photo Gallery能够识别区分照片中的人物,并据此实现照片自动分组。谷歌Picasa和苹果iPhoto等照片软件和在线服务也同样支持这项功能。受此启发,如果我们的手机相册也内嵌该功能,同时还可以点击相册的人脸拨打电话,也不失是个好主意哦。
似乎以色列的很多公司在计算机视觉领域有着相当高的水准,这里不得不提到face.com。Facebook应用的人脸识别技术就是来自这家以色列公司。face.com算是术业有专攻,其产品除了基本的人脸识别外,还可以分析人脸上的表情等信息,甚至也可以分析出相片中主角的年龄、情绪以及戴没戴眼镜。
贩卖儿童应该是这个世界最邪恶的事情之一。2012年3月19日,微软给警方提供了一套智能图像匹配软件,帮助警方解救这些儿童。这项技术称为Photo DNA。通过这项技术,也许有一天,你在街头看见一流浪儿,你可以用手机给他拍摄一张照片然后上传,同时包含Where(GPS采集)、When(拍摄时间)、Who(照片)、What(事件:发现流浪小孩)。后台经过智能匹配,会给警方和丢失孩子的父母提供有价值的线索。
通过以上介绍可以看出,人脸识别意义重大。
尽管Kinect for Xbox 360只是一款电子消费产品,但其可以通过“人脸识别”记住不同的玩家,从而提供更为个性化的体验,比如记录最近玩过的游戏,当你中途退出游戏又再次回来时,立刻认出“你是谁”。它已经成为Xbox游戏体验的一部分,你只是站在那里,Kinect就会知道你是谁。
关键字:人脸识别、相册聚合、Photo DNA、face.com

1.1.9 体感操作:达芬奇手术机器人

达芬奇机器人手术系统是由美国Intuitive Surgical公司研制的机器人辅助微创外科手术系统。它主要由一个手术机械手控制台、一个装有四支7自由度交互手臂的手术台和一个高精度的3D高清视觉系统构成,如图1-22所示。
image

以文艺复兴时期三杰之一“达芬奇”的名字命名,是因为它被公认为是第一台类人机器人。机器人手术不仅使外科医生受益,也是患者的福音。机器人手术可以将复杂的手术过程简化,减少病人手术过程中的疼痛和失血量,并可以缩短术后恢复时间。这里,机器成为人体自然的延伸部分。
或许在不远的未来,我们可以在地面用体感操作远在火星的探测车采集大气和岩石标本。
关键字:达芬奇手术机器人、机器成为人体自然的延伸部分、体感操作

1.1.10 脑机界面:霍金座椅的升级版

我们谈论科幻电影《阿凡达》时提到过“脑机接口”:在潘多拉星上,下身瘫痪的前海军战士杰克萨利躺在密封舱中,通过头上戴着的复杂设备,利用意念操控人造的混血阿凡达。
“脑机接口”目前还处于相当前沿的阶段。其核心原理是捕捉“脑电波”的变化,进而与外界系统进行交互。比如思考问题时大脑会产生0.2~1mV的电压。
美国科学家通过功能性核磁共振(fMRI),探测大脑周围的血液流动,能够准确猜测出参与者脑中所想的事物,并还原为灰阶的图像,准确率高达80%左右,为FBI提供了“读心术”的新式武器。
前面在介绍“眼球跟踪”时提到过霍金的座椅。霍金患的是卢伽雷氏症,他现在连手指都不能活动,眼球活动也很困难,以前一分钟能说15个单词,现在1分钟说1个单词,思维表达几乎快被封冻住了。他以前的座椅显得有些无能为力,还好现在有了新的转机,这位天才物理学家的座椅有了升级版—iBrain。
由NeuroVigil公司研制的iBrain,能捕获人类思维并将其转化为相应的计算机指令。《生活大爆炸》(The Big Bang Theory)第5季第21集中,霍金客串出演,据说就使用了这套装备。
关键字:脑机界面、iBrain

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11月前
|
人工智能 监控 机器人
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?(1)
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?
130 0
|
11月前
|
人工智能 自然语言处理 安全
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?(2)
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?
|
11月前
|
存储 人工智能 算法
|
机器学习/深度学习 自然语言处理 机器人
人机自然交互平台技术及应用 | 学习笔记
快速学习 人机自然交互平台技术及应用
229 0
人机自然交互平台技术及应用 | 学习笔记
|
机器学习/深度学习 人工智能 计算机视觉
阿里AI打破视觉对话识别纪录,机器看图说话能力比肩人类
近日, 在第二届视觉对话竞赛Visual Dialogue Challenge中,阿里AI击败了微软、首尔大学等十支参赛队伍,获得冠军。这是阿里巴巴达摩院城市大脑实验室联合阿里巴巴-南洋理工大学联合学院(JRI)等单位取得的又一项世界级技术突破。
1133 0
|
数据可视化 流计算 智能硬件
前沿︱视觉语言:可穿戴设备通知系统的福音
前沿︱视觉语言:可穿戴设备通知系统的福音
前沿︱视觉语言:可穿戴设备通知系统的福音
|
人工智能 自然语言处理 算法
唇语识别真会是语言交互的终极战场?
在今年的乌镇世界互联网大会上,搜狗展出了一项黑科技——唇语识别,12月14号搜狗在北京又公开演示了这项技术。作为行业领先的唇语识别系统,搜狗在非特定开放口语测试中,通用识别的准确率在60%以上,而在车载、智能家居等垂直场景下,已达到90%的准确率。
唇语识别真会是语言交互的终极战场?
|
新零售 人工智能 自然语言处理
剧透 | 未来人机交互方式原来是这样的...
云栖社区将于2018年3月31日在北京中关村创业大街3W咖啡举办一场《未来人机交互技术沙龙》,届时将有4位行业顶级专家对人机交互技术进行全方位的解读。
3475 0