推、拉、拖、拽……Rokid多模态交互如何让虚实共舞?

简介: 推、拉、拖、拽……Rokid多模态交互如何让虚实共舞?

从PC时代,借助鼠标键盘与数字世界进行交互,到智能手机时代通过触屏进行交互,人类一直在追求以更加自然的交互方式与数字世界进行交流。

但不管是PC时代,还是智能手机时代,人类与信息世界的交互都局限于方寸之间,都是二维的交互。随着元宇宙时代的到来,人、物、场的关系被重置,数字世界与现实世界逐渐融合,人们该如何通过听、说、看、推、拉、拖、拽等自然的动作,在三维的真实世界和数字世界中,在真人与虚拟人,在真实物体与虚拟物体之间进行自然的交互?交互方式的升级又将为交互设计及设备带来怎样的变革?

8月12日-8月15日,阿里巴巴U设计周(U Design Week,简称UDW)在杭州举行。Rokid技术VP、XR中心负责人王俊杰 和 XR设计负责人张墨受邀出席,分享了对元宇宙时代全新交互设计变革的思考。

01交互升级

AR眼镜将成为下一代个人计算平台

“个人电脑时代创造的鼠标、键盘和图形界面(GUI)的交互方式,极大简化了普通人的操作难度,让电脑走进千家万户;智能手机的出现,又创造了触屏和实体界面(TUI)的交互方式,让人们可以在一块屏幕上实现显示和操作的融合。可以看到,伴随着每一次交互升级,人们获取信息的效率和体验都得到了巨大的提升,而这也正是个人计算平台升级的核心。”


图:Rokid技术VP、XR中心负责人王俊杰

在王俊杰看来,PC和智能手机时代的交互都是二维的,局限于方寸之间;在元宇宙时代,交互将从二维走向三维,伴随交互升维,AR眼镜有望成为下一代个人计算平台,与PC和智能手机共存。

“AR眼镜摆脱了屏幕的限制,让人们可以在真实世界和虚拟世界中,与数字信息进行三维交互。”对此,王俊杰从企业服务、文旅展陈、协同办公、空间交互等场景进行了举例和展示。



在企业服务场景,当下一线员工主要通过手机、Pad等设备进行信息化处理,双手被操作设备占据。但通过AR眼镜,员工实现双手解放的同时还能从第一视角回传现场画面,获得后台专家的指导。通过虚实结合的三维交互方式,员工可以更精准地理解现场环境,让效率和体验都得到显著增强。



在文旅展陈场景则是另一番景象。传统的文旅展陈主要通过语音讲解器或者现场导游辅助,很难给观众带来更直观生动的体验。但通过AR眼镜,就可以让文物或展品生动地展现在眼前,结合三维交互,可以让整个参展过程更加自然有趣。

image.png

在协同办公领域,AR眼镜让用户告别了手机、电脑等单屏幕设备只能通过窗口切换实现多个应用跳转的办公模式,能够获得便携多屏、轻松协同的办公体验。

微信图片_20230515170056.gif

在空间互动场景,利用数字人驱动和空间同步技术,打破了当下电话或视频沟通带来的隔阂感和无秩序感,可以让沟通与互动更沉浸、更有趣、更有临场感。

02 从二维到三维
多模态交互方式让虚实共舞

“三维交互从信息流的角度来看,主要包含感知、理解、协同、展现、数字资产等几个模块,具体到三维交互方式上,则包含了控制器射线、手势识别、头部追踪、语音识别、全息现实、虚实结合、空间音频、数字人驱动等。”王俊杰分享了对AR眼镜如何支持人们进行三维交互的思考。

那么如何让三维交互更加自然,更加符合人的下意识行为?张墨从用户直观感知的看、听,以及交互方式上做了更具像化的展示。

image.png

图:Rokid XR设计负责人张墨

“横向左右30度是人眼可以看到文字等符号的范围;左右62度是双眼视野覆盖的区域,这个区域内可以看到立体的画面;62度到188度范围是单眼视野区,看到的就是2D效果了。因此我们的UI交互设计也需要遵循这样的信息从中心向两边扩散的排布规律。”

image.png

Rokid自研的多人在线协同应用MSpace就采用了这样的交互设计理念。同时,在纵向深度排布上,Rokid 也做了设计探索和验证。MSpace将信息分为个远近不同的三个层级:信息层、操作层、协同层。协同层最远,但与眼睛的距离保持在5米以内,以此保证最佳视觉效果最佳;工具栏的距离则保持在1.3米,能随时随地被用户唤起进行操作;信息层距离人眼最近,用于做重要信息提示。

image.png

图:多人在线协同应用MSpace多层交互设计

为了带来更自然的感知,除了看,在听这件事上也需要尽可能复刻现实世界中人类对声音的感受。Rokid自研空间声场技术让这一交互方式得到了实现。通过空间声场技术,可以在AR眼镜中模拟声源与人耳之间因空间位置变化、有无遮挡物等带来的声音强弱与方向的变化,从而让AR眼镜为用户带来更具临场感的听觉体验。

在交互方式层面,张墨对未来发展进行了预判。“当下由于技术限制,交互方式还是以控制器为主,但未来手势交互会成为主流,因为这是最自然的交互方式。而控制器则将被用在特殊场景,例如游戏。语音和其他交互方式将作为辅助能力存在。当然,随着技术的发展也可能有别的方式出现,如眼球追踪等,更远的未来还有可能出现脑机交互。”

“Rokid面向未来设计的XR交互体验将更加灵动、更加自由,戴上AR眼镜后,只需‘一抬、一拉、一拽、一拖’,信息与应用界面随心而动。”张墨表示。

时代向前,设计不止。交互设计正在从二维升级到三维,迎来真正的革新。为推动无限趋近于更自然的交互方式,Rokid将把三维交互能力融入自研操作系统YodaOS-XR中,搭载在丰富的AR眼镜产品矩阵上,为开发者提供全面的开发套件、通用标准,共同构建AR生态内容,让用户更轻松无感地穿梭于现实世界和数字世界中。

2022年,阿里巴巴设计周正式更名为U设计周(U Design Week),全新升级的U设计周「不止于设计」,由阿里巴巴联合腾讯、字节跳动、小红书等多家行业头部企业联袂出品,用开放的心态探讨设计,汇聚更多元行业和更多元内容,为大家呈现更多精彩。

相关文章
|
定位技术 图形学
Unity3D——射击游戏(多地图,多人物,枪支切换,驾车,扔手雷等功能,堪比小型和平精英)
Unity3D——射击游戏(多地图,多人物,枪支切换,驾车,扔手雷等功能,堪比小型和平精英)
Unity3D——射击游戏(多地图,多人物,枪支切换,驾车,扔手雷等功能,堪比小型和平精英)
|
自然语言处理 数据挖掘 程序员
实现虚拟人直播带货具体实现需要哪些步骤
实现虚拟人直播带货具体实现需要哪些步骤
187 1
|
人工智能 测试技术
「化腐朽为神奇」:Stability AI又出新工具,草图瞬间精致,不同风格随心选
「化腐朽为神奇」:Stability AI又出新工具,草图瞬间精致,不同风格随心选
110 0
|
定位技术 开发工具 数据安全/隐私保护
回看自己过去 4 年的运动数据,是一种什么样的体验?
回看自己过去 4 年的运动数据,是一种什么样的体验?
|
机器学习/深度学习 算法
【OpenVI—视觉生产系列之视频插帧实战篇】几行代码,尽享流畅丝滑的视频观感
随着网络电视、手机等新媒体领域的快速发展,用户对于观看视频质量的要求也越来越高。当前市面上所广为传播的视频帧率大多仍然处于20~30fps,已经无法满足用户对于高清、流畅的体验追求。而视频插帧算法,能够有效实现多倍率的帧率提升,有效消除低帧率视频的卡顿感,让视频变得丝滑流畅。配合其它的视频增强算法,更是能够让低质量视频焕然一新,让观众享受到极致的播放和观看体验。
619 0
【OpenVI—视觉生产系列之视频插帧实战篇】几行代码,尽享流畅丝滑的视频观感
|
机器学习/深度学习 自然语言处理 算法
谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
谷歌让机器人充当大语言模型的手和眼,一个任务拆解成16个动作一气呵成
254 0
|
人工智能 算法 前端开发
全屋一键智控,还能离线语音交互?这块智能触控面板很全能
编辑语: 应用速递栏目:应用速递是面向IoT厂商推荐芯片开放社区(OCC)上的典型应用案例,便于IoT厂商精准获取方案,快速实现产品落地。
249 0
全屋一键智控,还能离线语音交互?这块智能触控面板很全能
|
人工智能 Rust 物联网
从语音交互历史浅看它是否会是物联网行业的一个爆点?
近几年得益于人工智能在语音领域的突破,语音AI已经趋于成熟,尤其在智能音箱领域,智能音箱又带来了IoT应用到智能家居。本文主要讨论从语音交互历史看它能否成为物联网新的爆点。
从语音交互历史浅看它是否会是物联网行业的一个爆点?
|
机器学习/深度学习 存储 算法
码农也来玩奥运开幕式“超级变变变”!相机动捕,实时转换赛事图标,项目开源可试玩
码农也来玩奥运开幕式“超级变变变”!相机动捕,实时转换赛事图标,项目开源可试玩
239 0
|
移动开发 开发框架 小程序
再添新亮点!3 张图带你走近蚂蚁mPaaS音视频通话组件
远程问诊、线上开户、车载语音通话……蚂蚁 mPaaS 正在“拥抱新技术,探索新未来”。
2156 0
再添新亮点!3 张图带你走近蚂蚁mPaaS音视频通话组件