神州数码CIO沈旸:元宇宙是开放的数字世界

简介: 神州数码CIO沈旸:元宇宙是开放的数字世界

|引 言|



今天讲一讲2021年最热门的话题:开放的数字世界——元宇宙。


PART. 1


为什么要讲这个话题呢?在IT圈子里有一个永不停休的争论:什么叫数字化?什么叫数字化转型?之前的信息化是不是过时了?最近几年出现了很多概念,比如数字中台、数字孪生、数据湖等,那么传统的ERP系统是不是该被业务中台给替代了?传统的CIO们是不是要赶紧把CDO的Title挂上,是不是未来只有去干业务了,或者想各种办法把数据变现了?

 

我一直是个理工男,对各种文字概念历来不是特别感冒。但是平时在工作中,为了理解这些概念的真伪,我还是希望能够尽量简单地去理解问题。对于数字化,我也想从更本质的角度去理解它,所以就想看看最纯粹的数字化应该是怎样的。目前最“纯粹”的数字化场景,大概就是元宇宙了。

 

我们社会可以简单地分为物理世界和数字世界,现实社会中,我们有人财物和这三者之间的各种组合和价值交换,数字世界里也有信息熵和能量。一个比较接近原生的数字世界,可以是一个游戏的线上运营,它需要的能量可以靠太阳能,里面的玩家也可以是AI或者人类玩家,游戏的代码本身是数字世界的一部分,经济体可以用区块链来设计,这样的系统其实可以完全不依赖于人类。那么在这样的系统里,业务需要怎样进行设计呢?现实中的很多数字化转型都是物理世界和数字世界的融合,互相嵌套,有些环节在物理世界完成,有些环节在数字世界完成。不同的行业这个比例当然会完全不一样,100%的数字化那就意味着可以跟人没啥关系了。

 

对于数字原生的场景,可以借鉴这几部电影——《黑客帝国》、《西部世界》和最近的《失控玩家》。这三部电影很多朋友可能都看过。它们其实都讲了一个数字世界是什么样的概念,元宇宙是什么样的概念。最纯粹的数字世界是什么?比如像《Matrix》里面,大家都生活在一个数字世界里,跟物理世界完全脱离。我们离这样的时代还差多远?


image.png

PART. 2

我个人最喜欢的是《西部世界》,每个人看完一个故事后都会加入自己的设想,所以我的理解可能会跟原著不太一样。《西部世界》的故事提供了一个走向元宇宙的方法论——通过观察一个人,通过你看到的一切、听到的一切、触摸到的一切、感受到的一切,通过AI模拟的行为,一遍一遍地模拟,一直到误差为零。

 

技术圈里的很多朋友喜欢打牌,如果一个AI记录你历史上所有打牌的行为,通过AI观察你的面目表情和一些身体特征,那么在记录次数足够多的时候,最终这个AI大概能模拟出你的出牌风格,毕竟人脑也不是个无限的信息容器。这样的技术,在很多游戏或者自动驾驶领域其实也有一些实践。比如有些智能汽车一开始是把程序放在GTA的游戏中去训练,也有的智能汽车通过摄像头不断观察周边环境并记录人类的操作,和AI自己的判断进行不断比较,直到最终AI也能通过有限的信息去开车。

 

如果全世界所有的人都在教AI怎样开车,自动驾驶的落地速度会非常快,哪怕只是依赖于摄像头。这个在一些新的智能汽车里已经有很多的实践,大数据的训练和背后训练让迭代速度非常快,而且车也是一个相对标准的操作对象。

 

那么走向元宇宙的话,需要一些什么样的技术落地呢?

 

image.png


PART. 3

我们以通信技术的迭代为例。1G时代是模拟时代,到了后面2G/3G/4G通信的带宽越来越高,延时也在降低。从文本时代到视频时代,发生了很多变化,在4G普及后,视频和短视频的普及速度非常之快。今天很多人想搜索信息时都会去短视频平台搜,因为视频提供了一个更加真实的场景,它的信息损失和偏差是最小的。以前在企业里,有些员工非常擅长做总结和写PPT,不同人给不同人写和展现的PPT效果千差万别,因为大家理解文字和逻辑的路径都是不同的,就像每个人对数字化这个概念都有自己的理解。大家也可以看到在微信朋友圈里,人们对图片或者视频的点赞数量一般是远多于文字和文章的,因为图片和视频更直接。到了视频时代,哪怕是最普通的员工,用视频记录的真实场景也能把原本的含义表达出来。

 

那就先以视频为例子,如果AI需要关于你的所有数据来做训练,需要哪些呢?需要多大的数据量?需要多高的成本?如果本地无法处理,是否可以在云上计算这些数据呢?我们要考虑这些参数:

 

第一个参数是人眼的分辨率,人眼的分辨率大概是5亿像素,这并不是一个高不可及的参数,现在的手机上已经出现了1亿像素的摄像头了,基本上也能达到要求。

 

第二个参数是刷新的频率,人眼在120赫兹以上,几乎是察觉不到变化的。电影24帧大家不会觉得卡顿,玩射击游戏的电竞屏做到144赫兹、240赫兹基本上也可以达到要求了,人类对世界的采样并不需要一个连续的采样,只需要有限的数据就可以满足人的感官。

 

最后一个就是延迟。当运动员听到枪响的时候,反应速度是多少?人从听到声音,经过神经传递,最后大脑来反应,一般至少需要100毫秒。

 

人的神经速度是多快?当人听到一个东西并做出反馈,一般来讲大概100毫秒。大脑是反应比较慢的,如果是经过小脑,这个速度会更快一点,所以这也叫下意识的动作或者行为,但是它会有一个延迟。有一个简单的测试是帮助大家测试自己的反应时间的,一般成年人在250毫秒左右,这包含了大脑做出反应再驱动自己的四肢的时间。

https://humanbenchmark.com/tests/reactiontime

 

假设人的极限反应时间是100毫秒,如果AI能够在自动驾驶里把各种判断和操作控制在100毫秒以内,那么这个速度是好于大部分人类的。

image.png


PART. 4

举个简单的例子,如果说用iPhone的视频来记录大家的一生,这个成本大概是多少?做技术的同学都非常关注性能和成本,成本是决定一个技术是否能普及的关键。我们简单地计算一下,每分钟的视频文件375MB,每TB的磁盘成本750人民币,100年的记录成本大概是388万,也并不是一个天文数字。

 

如果这个成本能降到10万以内,相信很多有钱人会比较感兴趣,毕竟这个数字化的一生作为墓志铭会更容易让后人记住。如果有办法把一生记录下来,AI可以足够懂你,并在100毫秒内做出自己的判断,不停地与人类动作进行比较。那么最终用AI来模拟人类的行为,就变得非常现实了。

 

技术的迭代和成本的下降会不会让元宇宙突然到来?以蓝牙耳机为例,蓝牙耳机的几个痛点——延时、成本和续航。在2015年之前也有很多人用蓝牙耳机,但它始终是个小众的领域,一年规模大概不到10亿美元。以前的蓝牙耳机无法把时延稳定在100毫秒以内,所以大家用蓝牙耳机沟通的时候总是有障碍,不知道自己说完后对方是否想开口说话,这个100毫米的门槛就让蓝牙耳机的体验跟真实物理世界的体验相差甚远。当苹果的AirPods蓝牙耳机稳定地把延时做到100毫秒以内,这个市场就爆发了,增长了几十倍。


image.png

大家可以想象,关于元宇宙和数字原生世界的一些设想,当成本和延时满足大家的需求时,这个市场可能就跟2015年以后的蓝牙耳机一样,突然之间爆发起来。而且它引发的AI技术的进步,也可能超过大家的预期。今天我们有时候觉得AI特别弱智,你问的很多问题它都不懂,觉得AI没法get到你的点,主要还是因为AI的数据积累还不够,AI没有完整连续的数据和偏差纠正。

 

但是元宇宙并不能简单地依赖视频存储和计算成本的下降。在今天,视频的转化效果非常高,像抖音、视频号等各种视频充斥着大家的生活,大家看到自己想要的东西就会有购买的冲动。但是从技术的角度来讲,视频并不是一个元宇宙的最优的数据结构,它不好做分析,也不适合做数据共享。跟视频比起来,类似于UE5(虚幻引擎)这样的数字孪生模型可能会更合适。比如在公园里拍视频,几万个游客可能会制作几万个视频,文件非常大。但是如果将公园制作成虚幻引擎的模型,大家就可以共用一个模型来制作自己的故事,就跟《西部世界》一样,每个人都能在同样一个场景里活出不同的故事。游客可以用各种不同的虚拟摄像机机位去体验它,这样就大幅降低了制作成本。视频与虚幻引擎相比,大概相当于Hadoop跟TIDB/OceanBase数据库的对比吧,结构化的数据更容易做分析和处理。

 

今天游戏引擎产生的视频已经可以以假乱真了,在计算机图形学顶级会议SIGGRAPH 2021上,英伟达通过一部纪录片自曝:在2021年4月份那场GTC发布会的视频中,有14秒的时间黄仁勋是AI合成的特效,利用其3D仿真模拟平台“重组”了虚拟的黄仁勋。如果技术进一步提升,成本进一步下降,相信在虚拟场景中制造视频的成本将会低于人类的制作成本。那时候记录你的一生其实也不需要那么大的数据量,因为大部分背景都是公共的场景。如果记录你的场景数据能够在100毫秒内传输到云端并处理完毕,那么元宇宙的爆发点可能也不远了。

 

对于这个时间点,你觉得会是几年呢?


作者介绍:

沈旸先生,现任神州数码集团股份有限公司副总裁兼CIO,云基地负责人,集团技术委员会委员。主导集团数字化转型、数字中台、营销私域运营等,领导分布式数据库、开源ERP、SAAS等领域的开发管理工作。是信息技术领域超过12年的专业技术专家。


在加入神州数码之前,曾在SAP美国公司担任7年技术架构师,领导数据分析,EPM(企业绩效管理)和GRC(治理,风险与合规)领域的国际专业服务团队。为150多家世界500强客户提供过数字化转型咨询服务。

相关文章
|
存储 人工智能 OLAP
LangChain+通义千问+AnalyticDB向量引擎保姆级教程
本文以构建AIGC落地应用ChatBot和构建AI Agent为例,从代码级别详细分享AI框架LangChain、阿里云通义大模型和AnalyticDB向量引擎的开发经验和最佳实践,给大家快速落地AIGC应用提供参考。
131505 94
|
10月前
|
SQL 开发框架 .NET
突破T-SQL限制:利用CLR集成扩展RDS SQL Server的功能边界
CLR集成为SQL Server提供了强大的扩展能力,突破了T-SQL的限制,极大地拓展了SQL 的应用场景,如:复杂字符串处理、高性能计算、图像处理、机器学习集成、自定义加密解密等,使开发人员能够利用 .NET Framework的丰富功能来处理复杂的数据库任务。
|
10月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
10月前
|
机器学习/深度学习 自然语言处理 前端开发
前端神经网络入门:Brain.js - 详细介绍和对比不同的实现 - CNN、RNN、DNN、FFNN -无需准备环境打开浏览器即可测试运行-支持WebGPU加速
本文介绍了如何使用 JavaScript 神经网络库 **Brain.js** 实现不同类型的神经网络,包括前馈神经网络(FFNN)、深度神经网络(DNN)和循环神经网络(RNN)。通过简单的示例和代码,帮助前端开发者快速入门并理解神经网络的基本概念。文章还对比了各类神经网络的特点和适用场景,并简要介绍了卷积神经网络(CNN)的替代方案。
1337 1
|
10月前
|
传感器 机器学习/深度学习 人工智能
自动驾驶汽车中的AI:从概念到现实
【10月更文挑战第31天】自动驾驶汽车曾是科幻概念,如今正逐步成为现实。本文探讨了自动驾驶汽车的发展历程,从早期的机械控制到现代的AI技术应用,包括传感器融合、计算机视觉、路径规划和决策控制等方面。尽管面临安全性和法规挑战,自动驾驶汽车在商用运输、公共交通和乘用车领域展现出巨大潜力,未来将为人类带来更安全、便捷、环保的出行方式。
|
机器学习/深度学习 监控 机器人
RPA技术在金融行业中的几个关键应用领域
【8月更文挑战第4天】RPA技术在金融行业中的几个关键应用领域
605 2
|
缓存 关系型数据库 MySQL
及到Linux系统的软件包依赖和冲突问题
及到Linux系统的软件包依赖和冲突问题
436 2
|
算法 Java
「译文」Java 垃圾收集参考手册(五):Parallel GC
「译文」Java 垃圾收集参考手册(五):Parallel GC
|
人工智能 监控 数据可视化
一套智慧工地云平台源码,基于Spring Cloud +UniApp框架开发,包含:视频监控、劳务实名制、环境监测、GIS地理信息、数据统计等功能
一套智慧工地平台源码,一体化云服务,包含:视频监控、劳务实名制、环境监测、停车管理、安质管理、GIS地理信息、数据统计、智能AI等功能。 技术架构:微服务+Java+Spring Cloud +UniApp +MySql 端到端的数据安全通信和安全认证,保障项目看板信息、劳务管理、视频管理、设备告警等数据的安全传输。
495 0
一套智慧工地云平台源码,基于Spring Cloud +UniApp框架开发,包含:视频监控、劳务实名制、环境监测、GIS地理信息、数据统计等功能