主讲人:史元春 清华大学计算机系教授
近来,“元宇宙”成为热门话题,越来越频繁地出现在人们的视野里。大家都在谈论它,但似乎还没有一个被所有人认同的定义。元宇宙究竟是什么?未来它会对我们的工作和生活带来什么样的改变?当谈论虚拟现实(VR)、增强现实(AR)的时候,我们到底在谈什么?新风口?新概念?新技术?新名词?来自学界、产业界和人文领域的大咖作客阿里研究院,展开关系科技与人的跨界对话,对当下热门的元宇宙进行冷思考,探讨技术的普惠之路。
一、元宇宙的瓶颈
过去,元宇宙还只是科幻,存在于很多科幻作品中。在今天,元宇宙已经成为人们日常的应用,包括鉴别工具、翻译、机器人、自动驾驶以及《星球大战》里的虚幻空间等等。过去科幻作品所描绘的人类未来,激发了我们的想象力和科研能力,而我们要想实现科幻作品中各种交互表达的动态模式,其实还有很长的路要走。
60 年前就已经初现端倪的 VR 原形系统,现在要在用户端实现交互能力依旧有很多瓶颈。第一,在元宇宙中有大量的可视对象,我们希望用手和眼睛跟它们进行交互。但实际情况是,在交互过程中人们经常会产生眩晕,因为在可视场景中画面经常产生延迟,而精细的对象访问一般都是眼睛先盯准然后再用手访问,接下来画面才会跟着眼睛动。
第二,在元宇宙中有大量的手势命令,但手势命令在交互过程中很容易忘记。在生活中,我们有很多需要用语言或键盘来精准表达的内容。在 XR 环境中,我们失去了精准的操控工具,也就很难形成准确的交互。同时,由于语音识别涉及个人隐私,在很多场景也是不方便的。所以近年来,我们会看到很多奇葩配置,比如内容输入、虚拟键盘、折叠键盘等等。这些配置不但没有方便用户操作,反而成为了用户的负担,让交互过程变得更繁琐。
二、信息科学技术和元宇宙的发展史
元宇宙的概念之所以火热,一方面是因为先进技术的组合给我们带来了很多可能,另一方面是资本的推动。先进的信息技术可以创造一个客观的物理世界,也可以融合虚拟数字世界从而生成虚实共生的新型社会形态。
从技术的角度来讲,信息技术在上世纪 30 年代奠基时就有无限可能。从那时起,信息科学技术撬动了自然界的信息流。自然界有三个基本元素:物质、能量和信息。人类首先认识物质,然后认识能量,最后认识信息。信息不仅帮助我们更好的认识自然界,更能帮助我们认识人类社会、认知世界。
上个世纪三、四十年代我们有了图灵机、信息论、控制论,数字电子计算机以及未来个人信息设备的概念机 Memex。通过这些信息技术的结晶,人们构建了主客观世界的桥梁。
1960 年,约瑟夫·利克莱德提出了“人机共生”的思想。在他的直接领导下不但研发了分式操作系统,而且直接引导了图形技术,让我们有了直观的操作界面。在这些技术支撑下,计算机才有可能从实验室的庞然大物成为办公室的信息处理工具。这是计算机很大的进步。
30 年之后,GUI 赋能了苹果和微软。乔布斯和比尔盖茨开始讨论 PC 的未来。与此同时,施乐 研究院的首席科学家 Weiser 发表了一篇论文,题目叫《21 世纪的计算机》。
Weiser 指出,未来的计算机要从 PC 端扩展到移动终端,从而进一步融入到物理空间。在设备上,动态组成面向用户连续活动的易用的计算机信息系统。在他的思想引导下,人们对于移动计算的普及、物联网虚实融合以及自然交互进行了广泛研究。Weiser 的思想和科技引领计算机从桌上走到了掌上,走到了更现实的空间中。
1991 年左右,Metaverse 出现并提出 Avatar 数字化身的概念之后,每隔十年计算机技术都会有卓越的发展。从1980 年 viseme 的口型合成,到 1990 年 audio-visual speech 的合成,2000 年 talking avatar 合成,2010 年全身 avatar 合成,再到 2020 年高逼真 3D avatar 合成,这些支撑了一系列更真实的场景和应用。
在 Metaverse 体系里,一共有七层价值链。
第一层,基础设施,主要包括 5G、Wi-Fi6、6G、云计算、7nm 到 1.4nm 芯片、微机电系统和图形处理器等,这些新兴技术作为元宇宙的底层支持。
第二层,人机交互,比如手机、智能眼镜、可穿戴技术、触觉、手势、声控和神经设备。这一层主要是面对用户端的智能产品。
第三层,去中心化,涵盖了边缘计算、AI 计算实体、微服务、区块链等技术。
第四层,空间技术,像 3D 引擎、VR/AR/XR、多任务处理 UI、空间地理制图等,让信息技术和物理世界完美融合。创作者经济、渠道和体验都是在元宇宙下信息计算技术融入现实社会的主要场景。
三、在模糊的自然行为数据上推理人的交互意图与实践
如何让机器理解人的自然表达,从而支持元宇宙中更快捷和有效的信息访问呢?我们希望在人机共生的环境中实现人机高效的语义交换。在脑机接口能够连接人机并且充分表达语义信息之前,人机高效的语义交换主要通过人的外在行为来表示行为语义,从而进行信息交换。
由于人类没有精确的输入设备,这也意味着数据模糊。那么在数据上如何推理人类的交互意图呢?常见的方式是各类识别问题,即图像识别、动作识别、手势识别等。这些识别过程都是从机器上获得人类数据再解读人类数据。但机器在特定语境情况下,对交互意图的推理还存在偏差。
经过多年研究,我们提出能够融合交互情景和行为编码的推理框架,使意图推理准确、有效消
除模糊性。这套方法已经在手机终端得到了广泛的应用,有效解决了触屏手势交互意图识别的问题。比如,我们帮助华为和荣耀降低了全面屏手机和折叠屏手机的误触率;同时,软键盘容错输入的准确率也提高了 10%。这些技术已经用到了移动终端,每天服务用户高达 7 亿多。
在元宇宙中,我们对于目标访问手势、语言命令和语音、键入内容等基本交互需求做了一系列的解决方案。
首先,语音交互的自然唤醒,有效解决了人机交互时的不方便和隐私问题。我们做了大量的凑近交互,利用用户凑近多模态的数据帮助机器确定用户是否愿意继续讲话,这样有效解决了隐私和唤醒本身的矛盾。
第二,动作交互的语义编码实现了可视对象无注视的精准访问。我们针对 XR 中无视觉参与的目标获取导致眩晕和疲劳的问题,建立用户动作控制偏差的量化模型,首创无需视觉注意的空中目标选取技术。
用户依靠自体感知能力和空间记忆完成对目标的定位,通过 VR/AR 和大屏交互技术,补偿用户的运动控制偏差,实现布局优化,最终提升虚拟目标的抓取速度,降低用户的眩晕感。
第三,键盘交互:空中打字。在这个推理框架之前,空中打字最高的识别率只有 60%,而现在空中打字的识别率几乎是 100%。随着技术的积累,我们希望拥有随时可用,不需要携带很多设备的人机交互工具,所以我们设计了穿戴式精准交互戒指。在未来,用户只需要将一对戒指戴在手上,就可以用两个手指完成二维、三维空间对象的准确访问,相当于大空间的鼠标,还可以做命令手势以及隔空打字。
第四,语义交互。我们希望情景信息不但可以提高语义理解,而且能给我们一个快捷的路径。今天大量的应用路径主要依靠人来记忆,人们必须记住操作方法,才能使用 APP。目前,我们的交互路径完全人为设定,但我们更希望应用能够自动完成交互路径,所以应用需要对场景任务进行分析。
当下,大概有一千万个 APP 覆盖了大家工作生活中大量的场景任务。从已有的 APP 中,利用CV 和 NLP 技术,可以让应用界面自动识别交互任务,建立一个交互任务的语义图谱,这样可以为不同用户和不同场景下映射出这个任务该有的高效界面,或者优化一个新的界面。比如,盲人用高德打车时,通过原读屏界面需要 30 秒才能完成打车,我们建立姿态快捷界面之后,盲人只需要 5 秒就能实现轻松打车。
四、元宇宙人机交互系统 NUIX
当元宇宙中人机交互因素的复杂程度超过了人类程序员的处理能力,就需要专门的人机交互支撑系统。我们通过多模态的交互路径优化,生成了虚实融合的测试环境 NUIX 灵犀系统,它可以实现服务逻辑与交互界面解耦、交互界面自动生成、支持意图理解和面向交互质量优化的计算调度。
在实际使用中,我们的平台可以和 VR/AR 等虚拟设备进行融合,达到混合场景的同步控制,并通过超前构建交互场景进行可用性测试。除此之外,NUIX Studio 以交互为中心,支持多人多场景的复用和扩展,集成开发效率提高数十倍。希望 NUIX 系统通过以人为中心改变以计算为中心的底层资源管理。
最后,从人机交互的角度来看,元宇宙面向用户端的使用依旧差强人意。现在,它只是一个放大版的VR/XR,但元宇宙的想象力能够促进我们的创造力,资本的投入能进一步促进科技的进步。