导语:2022年9月26日,沉浸式访谈节目《掰碎“元宇宙”》在阿里云开发者社区&阿里云开发者视频号&阿里云看看号等多个官方渠道同步播出,NVIDIA中国Omniverse业务负责人何展、沙核科技创始人楼彦昕、阿里云弹性计算产品专家张新涛三位大咖共同分享了行业理解、落地案例、瓶颈挑战等等。
数字世界先锋 × 科技艺术家 × 云计算活化石,三位大咖又能碰撞出何种观点呢?点击下方视频即可观看节目正片。
视频:《掰碎“元宇宙”》|大咖对话
以下是本次节目的文章整理,供阅览:
Q1 元宇宙、沉浸式体验,是个啥?
何展:两位怎么去理解元宇宙,你们心中的元宇宙是什么样子的?
张新涛:我们认为它是下一代互联网,将来我们所有的衣食住行、学习工作等等,不再在手机上、PC上进行,而是拥有一个类似轻量级的XR终端,把所有的业务都放在那里。
何展:我理解就是一个互联网的新的演变,希望通过一些介质像XR甚至未来的脑机接口进行交互。
楼彦昕:我觉得对于元宇宙,我们现在还没有完全达成一个百分之百元宇宙的概念,而是在共同建设新一代的互联网,我们还在为它添砖加瓦。
何展:是的,这个生态是需要共建的。
何展:沉浸式这个词也很有趣,我们怎么理解这个沉浸式?
楼彦昕:沉浸这个词本身是一个形容词,说的是给到大家的一种感受:用户把自己放在一个场域里面,然后成为这个场域的一部分,AR、VR等,尤其是VR给大家的感受更直接。
张新涛:沉浸式,除了刚刚楼总说的要有VR设备、优质的内容之外,它还需要一个交互过程。交互实际上是给云计算和芯片行业带来了一个巨大的挑战。它需要实时地反馈,就是实时地计算。比如体验者在虚拟空间里触碰一朵花,花要会动,戴上相应的手套,也会有相应的触觉反馈,这都是需要实时地去计算。
我们需要用足够多的技术手段去“欺骗”人类的大脑,然后让大脑觉得我就是在这个现实世界,没有办法区分是虚拟空间还是现实空间。当大脑没有办法区分的时候,沉浸感自然就有了。
何展:其实我有幸在几周之前刚刚参加了阿里的U Design Week(U设计周),里面很多session(分享或展区)介绍了视觉这方面的算法优化、触觉。通过戴VR眼镜、手套来进行虚实互动的技术,以及戴着项圈实现对嗅觉,也就是气味的模拟。
比如当我们看到电影中巧克力蛋糕的镜头时,项圈就会散发巧克力的味道;画面出现一个特别臭的马厩,也会同步有臭的味道合成出来,它是实时的。味觉的体验是需要拿一个小垫片插在手机上,然后模拟味觉感受。但所有的感官实现都离不开一件事儿,就是计算。
楼彦昕:不同的感官,它的模拟成本是不一样的。我们现在做的更多的其实是视觉、听觉多一些,触觉是比较贵的,还没有办法下降到每个人可以使用的程度。但是我们做的所有工作其实都是在还原和模拟感官。
何展:对,刚刚你也提到还有听觉,我前一段时间在一所大学,就体验了一下听觉。是戴了一个耳机,用AI生成的一个声道来串一段音乐,听起来的感觉是从左耳跑到右耳。刚刚我们讨论了沉浸式,有了视觉、听觉、味觉、嗅觉,触觉。我们再想一想,如果这五个感觉都要实时实现,像新涛说的,就不仅仅是一副眼镜能够支持的事情了。
楼彦昕:对,有很长的路要走。
Q2 分享下沉浸式体验实践?
何展:阿里云最近有没有做的相关落地的场景和应用,给大家分享分享。
张新涛:我们最近有很多落地的项目,最有趣的就是(彼真科技制作的)元宇宙演唱会,无论是演员还是玩家,在这个元宇宙空间里都是一个角色,周围的整个环境是不受物理空间的限制的,也会产生很多视觉上、声音上的特效。演员也是不受物理限制的,演员可以变得更大,也可以变得更小,这个也是现实的舞台上没有办法产生的,它是一种新的艺术形式。
何展:我理解这是不同于普通的虚拟演唱会,它支持切换不同的场景,然后实时地让观众和演员有交互互动。
楼彦昕:刚刚新涛老师讲的元宇宙的演唱会,我们前段时间也做了一场。还不是单一个人,是一个乐队,通过动作捕捉的方式,实时驱动虚拟空间里的角色为大家进行表演的。只不过比较特别的是,这次演唱会既可以用VR的方式看,也可以用平面的方式看,每个端的交互方式都不太一样。
其中有一首歌在VR里面,可以实现在整个空间里面飞,人物角色是在一个黑洞的前面,然后演员也是在黑洞的前面,飞的过程中也可以划出彩色线条特效等等,它也算是一种舞台特效的一部分。只不过这种舞台特效不是由演员或者舞台产生的,而是由观众的有效互动产生的特效。
何展:您刚才指的平面是指的一个手机或者平板?
楼彦昕:对,然后整个演出是在云端渲染,渲染完成下发到VR头显端以及平板和手机端去。这个演出其实是我们整个活动的一部分,我们自己新开发的叫做“大千”的平台,它是一个可以在虚拟空间做各种各样的演出、展览形态的一个空间聚合型平台。我们也开发了一个完全基于云的版本。就是整个空间,不管用户去参加展览,去参加演出等等,一系列的活动都是可以通过云端云渲染的方式进入。
何展:那这个平台还是实时的吗?
楼彦昕:是,完全是实时的,也用的是NVIDIA的卡。
何展:现在你们做过的项目里并发大概能达到多少?
楼彦昕:如果说是从传统意义上的这个网络并发的话,它可能是可以到上千人的程度。
何展:我记得去年年底的GTC就是我们的技术大会上,老黄(NVIDIA创始人黄仁勋)亲自展示了一下他跟他的虚拟人的对话,应该我记忆中是我第一次看到真人和一个数字形象进行实时地交互。
楼彦昕:我们今年正好有个作品也入围威尼斯国际电影节,正好是现在这段时间,威尼斯正在展映。它是一个戏剧表演项目,表演的这个空间,它是可以有好几个不同的舞台去转换的。整个过程演员是穿着动捕服,一个演员对六个观众进行表演的。但整个表演过程中演员是在巴黎,观众是在威尼斯的,所以实际上它是跨国的动作捕捉数据传输的方案去进行呈现的,整个过程也是用实时计算演算去做出来的。
Q3 沉浸式体验为什么必须用云计算?
何展:有个问题交给新涛,新涛是云专家,想问的是“沉浸式体验”为什么要和云计算强相关?这个您怎么去看?“沉浸式体验”的实现对算力的要求真的就那么高吗?
张新涛:这个确实对算力要求还是非常高的,比如说刚刚讲到老黄要跟他自己的虚拟人对话,就意味着其背后需要有一套语言的AI,这套语言的AI非常复杂。目前为止可能全球那几个非常领先的企业,他们的语言模型实际上也是有很多各种各样的问题, 需要一个巨大的计算集群来做这个事情。我跟虚拟人说的任何一句话,虚拟人做的任何一个回答,都意味着后面要调动非常多的计算能力。
另外一个就是3D渲染,如果要实现异地,就要自己去找到相应的计算节点,还要找到相应的网络传输,还要把这个网络的延时降到很低,进行交互的时候不能明显地感觉到延时,这样的挑战还有很多。
何展:尤其是这种重大的活动,它不能允许出现问题。
张新涛:能稳定输出这样的算力,看上去这事儿比较简单,实际上是一个非常挑战的事情。比如我们自己的手机有死机的时候,我们的PC也有故障的时候,但是云不允许有这样的时候。像支付宝,可能用户此时此刻正在医院要付款,如果这个时候出现故障那问题非常大。另外一个是规模上,有些演唱会可能说非常热,需要想到两万,想到三万。云做这个事儿的时候,因为云有巨大的计算资源池,所以马上就能给出来。
何展:对,这个刚刚提到支付宝这个例子其实给我一个触动,真的是日常生活中一些小事情,没有一个稳定的算力支持都会影响,从而变成大的影响。那我也想问一下楼总,在您的业务进行的过程中为什么选择阿里云?
楼彦昕:过去在搭建“大千”这个平台的过程中,最早一直以来,我们很多规划都是基于端这个事情在想。我们要考虑是1080还是(其他显卡)作为算力标准,说白了就是大家的电脑显卡是什么水平来去规划这件事情。
后来在接触到云,并且我们在云上搭建这个云的版本以后,发现我们终于松了口气,我们不用再考虑这个问题了。现在的这个大千的平台是既有云、又有端,就是两端都可以支持进入。
我们还要考虑跨国,因为我们的演员可能在国内,但是要给在海外的观众演,所以我们就要考虑节点怎么去部署,什么样的机构可以给我们提供这样的能力,那看来看去只有阿里云可以提供这样的能力,所以我们就一开始就也就选择了阿里云。
何展:我总结一下,如果没有云的话,要选择一些标准作为算力的支持的话,其实也是很痛苦。
楼彦昕:对,真的很痛苦。
何展:刚刚你说了几百人并发,几千人并发,又提到数万人,真的能达到数万人的并发,现在我们都能做到,对吧?
张新涛:我们在几年前有一个客户做了一个应用,那个应用基本上是实现了云计算上的一个飞跃,就是超过了13000片GPU同时为一个APP服务,数千万人同时在线登录使用一个APP。
何展:我估计也只有中国市场能有这么大的并发。
Q4 XR领域有什么亟待突破的挑战?
何展:大家觉得现在XR领域或者VR领域,还有哪些需要改进的技术?
张新涛:其实这一部分挑战还是挺大,我们现在的计算能力、通信能力、计算规模,是远远达不到说我们刚才畅想的那种程度。举个例子,我们现在如果想做非常高清的数字人,基本上拿NVIDIA最厉害的芯片来算,可能还是不行。那我们可能要考虑和引擎公司一起合作,尝试能否让它并行起来。
AI的部分你会发现我们现在大型的语言模型,很多AICG或者识别人类微表情的能力,还是处于一个弱人工智能的情况。虚拟人在智商上很低,那使用者一定没有沉浸感,因为会下意识觉得这就是一个机器,对吧?但是如果它智商很高,又能识别你的表情,它能理解你的情绪,那这个时候用户就会认为它真的是一个虚拟的人。我们认为计算,包括通信,各种算法,有些东西还是需要理论上有突破的。
楼彦昕:关于算力如何稳定地获取和低成本地获取,始终是一个很难的事情。因为现在的VR设备实际上里面的芯片,还是大家普遍用的一体机,不管是Pico还是META,它里面是移动ARM的芯片,还远远没有到1080,可能退回到6600都到不了。
平时大众所使用的消费级VR设备,它的算力是很有限的,但是我们想做的东西远远超过它的算力,我们想做非常华丽有趣的场景,但是没有办法提供给大家。所以云确实可以帮助到大家,可以给予这个能力。但如何让普通观众消费者低成本同时稳定地获得这种算力,这个确实是需要一起共同努力的一个方面。
另外还有一点我想讲的是互通性、互操作性的问题。现在VR这个方向上,其实大家做的东西很多都是信息孤岛,我们在做“大千”这个平台,实际上是聚合各种各样不同人所创建的虚拟空间,光这件事情我们就要考虑这个格式是什么、接口是什么。
我认为未来在资产的格式层面,可能大家会逐渐拥抱USD(通用场景描述)。但是同时USD是还不够的,因为USD其实是对于资产的描述,我们还要有逻辑,引擎里面还有用户要怎么玩儿,怎么互动,这些逻辑是USD上面并没有去规范的。我相信大家在参加“元宇宙标准论坛”时都是在讨论这个问题,就是我们大家如何共同建设一个互通互联的元宇宙的网络架构,资产可以相互流通,信息可以互相流通。
何展:对,听到了刚刚对算力的需求,其实我们的CloudXR也在跟阿里云合作。另外你说的这个开放的标准,其实我们是第一批加入这个标准的,一共36家企业,大家一直在探讨,有数据格式的标准、场景描述的标准、材质定义的标准,还有一些叫数字经济体系方面的标准,都在参与定制,这个难度真的很大,开发一个大家都能互通的这样一件事情。
楼彦昕:是,我觉得我们现在有点回到web1.0的时候,大家同时开始共同建设一个新的网络架构的时候。
何展:是的,所以我们现在也在描述就是USD是这个下一代互联网或者下一代元宇宙的这个HTML。
楼彦昕:对,互通格式。
何展:对,这个我们也是畅想很久,期待着和阿里云,和我们的用户,我们一同去共建更好的生态。那么今天我们的访谈就到这里,期待着未来更多的新的、落地的元宇宙沉浸式的项目出现,谢谢大家。
注:本文插图均为《掰碎“元宇宙”》节目画面截图