原文链接:https://www.woshipm.com/share/5995951.html
Vision Pro 的出现,搭建起了虚拟世界和现实世界的桥梁,而 Sora 模型的出现,则又为 Vision Pro 的落地可能性添加了更多火花。怎么看待Vision Pro + Sora 的结合?一起来看看本文的解读与分享。
今年2月份两个产品的发布,在2024新年一开年扔出了王炸,一个是2024年2月2日的 苹果公司 Vision pro头显发布,另外一个是同年2月16日 Open AI 发布的Sora 文生视频的虚拟世界模拟器生成模型,我们来看下两个王炸产品碰撞在一起,会激发出什么样的火花?
一、Vision pro——新时代的空间计算机
苹果Vision pro刚刚发布,一跃成为迄今最先进的虚拟现实和增强现实眼镜,苹果公司将其称为“空间计算机”。
OpenAI的创始人兼首席执行官山姆·奥特曼评价:苹果Vision pro是自iPhone以后第二惊艳的技术。实际上手体验时,当你带上眼睛后,沉浸式呈现眼前是一个虚拟空间,它以高分辨率屏幕,支持重放事件和人物的三维视频录像,看起来就像置身其中,只需要通过简单的眼神和隔空手势操作。
瞬间革新您的沉浸式体验。同时,OpenAI也携最新力作GPT-4引领智能对话新浪潮,升级交互无界限。立刻体验无与伦比的虚拟现实世界,同享GPT-4带来的智慧,探索“真实世界”。需要注册或者升级可以参考这个教程:
24年最新版升级 ChatGPT Plus 的教程(一分钟完成)
1. Vision pro 定位:打通虚拟世界与现实世界的桥梁,呈现虚拟世界的载体
Vision pro出现让空间计算这个词得到现实中完美呈现,简单说将我们周围的现实物理世界和虚拟世界无缝整合,同时让人类可以实现毫无违和感地操控物体和空间,提供了一种全新的互动体验。
再夸张一些,在Vision pro搭建世界中,将虚拟和物理世界融为一体了,不论是一辆汽车还是一台电视,都将成为空间计算设备。
通过Vision pro强大的空间计算能力,可以用户提供高清晰度、强互动性的沉浸式风景展现:置身于月球登陆,探索南极洲冰川。
2. Vision pro现阶段瓶颈——沉浸式体验资源生产匮乏
虽然Vision pro在技术和体验上实现了重大突破,但仍存在诸多不足,需要进一步完善和优化。比如在于虚拟世界的搭建上和3D电影 沉浸式影片照片体验,现阶段都是基于VisionPro头显专用流媒体资源(至今为止可以访问仅150 深度的3D娱乐项目),且需要依赖于强大的虚拟世界搭建引擎和海量可支持3D的视频模型资源,哪怕是内置的3D摄像头可以拍摄照片或视频,但也需要用户自主去捕捉拍摄,才能实现进一步呈现。
而这一切的资源限制,随着OpenAI Sora近期发布,让一切限制有了突破的可能性。
二、Sora 发布——虚拟新世界的创造引擎
如果说Vision pro 头显是开启新世界大门的钥匙,那么Sora可以理解为虚拟新世界的创造引擎,所有呈现的内容在未来都可以由Sora来制作且呈现在使用者眼前。
众所周知,视频是不能P的这个定律,也随着sora的发布被打破了。
Sora 不仅仅是一个文生视频的软件,而是 作为世界模拟器的视频生成模型”,“他并不是仅仅对于现实世界的镜像,而是基于你的描述,构建新的一个符合现实世界物理规律和运转虚拟世界,第一次AI可以理解这个世界的定义,并且基于这些世界运转规律再进行二次创造。
1. Vision pro 与sora 结合——创造一个更加有趣的虚拟世界
Vision pro 头显显示技术呈现的是一个与现实结合的虚拟空间,背后是基于现有的流媒体素材进行3D化改造,但当虚拟3D流媒体素材视频不再是拘泥于现有的视频素材,是可以通过你的描述由Sora 自定义生成新的视频呢?
过去Vision pro 里搭建的3D媒体资源可以理解为是在一片鱼塘里寻找合适的鱼来匹配呈现,Sora的出现将整个鱼塘规模成几何倍扩大,可能是一整个海洋,甚至超越整个海洋的容量,通过这样大的资源库进行快速生成,不再受限于已有资源的限制,对于Vision pro来讲,用户使用和发挥的空间被放大到最大化。
大胆想象下,你可以通过自己的口述,让Sora 虚拟世界技术在Vision pro里搭建自己的新世界。甚至可以将梦中的画面口述出来,让sora帮你还原梦中1:1虚拟景象 ,通过Vision pro 呈现出来梦中的景象,在沉浸式技术的加持下,你自己就真实置身于自己搭建的虚幻世界中,参与其中,你还能分清虚拟和现实世界的差异性吗?
2. Vision pro 与sora结合不仅在于3D视频资源供给,而是打破了信息传递的介质
过去我们希望将脑海中的想法表达出来,需要通过自己将大脑中想法转化为其他人可理解的文字,图片,形状,尽可能降低折损传递,但无论如何都很难完美的呈现。
但通过Vision pro 与sora结合,你可以将你的想法通过口述方式传递给sora,由sora去生产还原你脑海中的想法,并支持可视化的在线编辑修改,最后由Vision pro 完美无损呈现你的可视化想法,完全不需要进行更多折损的转化路径。
3. 颠覆未来工作方式和生活方式
未来在公司宣讲或者讲课,开会等场景,大家可以想象下,呈现在我们面前的不再在是一个枯燥单调的word/ppt方案,而是一个通过声音和画面以及感知触摸方式进行交互的虚拟可视化方案,你不再是方案的旁观者,而是作为方案中的参与者去呈现,直接颠覆了未来的工作和生活方式。
如果再结合未来马斯克脑接口的神经连接实现,甚至省去口述的步骤,所想及所得,阿凡达的虚拟世界在未来真的有望实现。
未来每个人都可以拥有一个像科幻电影钢铁侠中属于自己贾维斯。
其实openAI已经为苹果Vision pro带来了ChatGPT,允许用户直接在应用程序中提出问题,获得答案,获得建议,甚至生成图像和文本。在不久的将来,我们将不再需要在聊天界面中输入信息,而是更频繁地通过与AI助手应用对话来表达我们的需求。
未来引入Sora的助力后,Vision pro呈现回答的方式会更加立体直观,比如遇到一个比较棘手的问题,如汽车引擎无法启动的故障,sora会自动生成一个汽车的拆解3D影响。一步步教你如何解决问题。
三、总结
虽然现阶段无论是Vision pro还是Sora仍有很多不足,包括被大家诟病的Vision pro尿袋设计,以及头显的太重的问题,Sora生成视频中也有一些违背自然规律翻车内容,也还未实现3D 显式建模。但随着科技的快速发展,按照目前迭代速度和算法持续优化,这些问题在不久将来一定可以解决。
我们要将眼光放长远一些,未来10年,甚至3-5年后再看这些产品,会发展的非常成熟和完善。不要忘了仅1年时间,Open AI就已经从GPT3-GPT4-迭代到Sora,放在过去完全不敢想象的进步, 技术的突飞猛进速度已远超出我们的预期和想象 ,所以科幻走进现实,只是早晚的事情。
Sora生成的视频截图。提示词:打印一个人跑步的场景,35 毫米电影胶片。
库克对Vision pro的希望是“定义下一个十年”,而生成式AI恰巧会在接下来的10年时间内快速发展。据彭博社最新报告显示,预计生成式AI市场规模将会在2032年扩大至1.3万亿美元。需要知道,2022年生成式AI的市场规模不过400亿美元,连1.3万亿美元的零头都不到。
如果说Vision pro能够搭上生成式AI这辆车,那么在接下来的10年时间里必定会成为苹果又一划时代的产品,而Sora和Vision pro的结合对于双方都是很好的补充,在虚拟和现实世界之间已经建立了一个链接,这让无论是头号玩家式的虚拟世界,还是机器人更像人类,都充满了更大的可能性。