苹果Vision Pro携Sora引领AI的新浪潮,XR硬件未来探索之旅

简介: 苹果Vision pro刚刚发布,一跃成为迄今最先进的虚拟现实和增强现实眼镜,苹果公司将其称为“空间计算机”。OpenAI的创始人兼首席执行官山姆·奥特曼评价:苹果Vision pro是自iPhone以后第二惊艳的技术。实际上手体验时,当你带上眼睛后,沉浸式呈现眼前是一个虚拟空间,它以高分辨率屏幕,支持重放事件和人物的三维视频录像,看起来就像置身其中,只需要通过简单的眼神和隔空手势操作。

原文链接:https://www.woshipm.com/share/5995951.html

Vision Pro 的出现,搭建起了虚拟世界和现实世界的桥梁,而 Sora 模型的出现,则又为 Vision Pro 的落地可能性添加了更多火花。怎么看待Vision Pro + Sora 的结合?一起来看看本文的解读与分享。



今年2月份两个产品的发布,在2024新年一开年扔出了王炸,一个是2024年2月2日的 苹果公司 Vision pro头显发布,另外一个是同年2月16日 Open AI 发布的Sora 文生视频的虚拟世界模拟器生成模型,我们来看下两个王炸产品碰撞在一起,会激发出什么样的火花?


一、Vision pro——新时代的空间计算机

苹果Vision pro刚刚发布,一跃成为迄今最先进的虚拟现实和增强现实眼镜,苹果公司将其称为“空间计算机”。

OpenAI的创始人兼首席执行官山姆·奥特曼评价:苹果Vision pro是自iPhone以后第二惊艳的技术。实际上手体验时,当你带上眼睛后,沉浸式呈现眼前是一个虚拟空间,它以高分辨率屏幕,支持重放事件和人物的三维视频录像,看起来就像置身其中,只需要通过简单的眼神和隔空手势操作。



瞬间革新您的沉浸式体验。同时,OpenAI也携最新力作GPT-4引领智能对话新浪潮,升级交互无界限。立刻体验无与伦比的虚拟现实世界,同享GPT-4带来的智慧,探索“真实世界”。需要注册或者升级可以参考这个教程:

24年最新版升级 ChatGPT Plus 的教程(一分钟完成)


1. Vision pro 定位:打通虚拟世界与现实世界的桥梁,呈现虚拟世界的载体

Vision pro出现让空间计算这个词得到现实中完美呈现,简单说将我们周围的现实物理世界和虚拟世界无缝整合,同时让人类可以实现毫无违和感地操控物体和空间,提供了一种全新的互动体验。

再夸张一些,在Vision pro搭建世界中,将虚拟和物理世界融为一体了,不论是一辆汽车还是一台电视,都将成为空间计算设备。


通过Vision pro强大的空间计算能力,可以用户提供高清晰度、强互动性的沉浸式风景展现:置身于月球登陆,探索南极洲冰川。



2. Vision pro现阶段瓶颈——沉浸式体验资源生产匮乏

虽然Vision pro在技术和体验上实现了重大突破,但仍存在诸多不足,需要进一步完善和优化。比如在于虚拟世界的搭建上和3D电影 沉浸式影片照片体验,现阶段都是基于VisionPro头显专用流媒体资源(至今为止可以访问仅150 深度的3D娱乐项目),且需要依赖于强大的虚拟世界搭建引擎和海量可支持3D的视频模型资源,哪怕是内置的3D摄像头可以拍摄照片或视频,但也需要用户自主去捕捉拍摄,才能实现进一步呈现。

而这一切的资源限制,随着OpenAI Sora近期发布,让一切限制有了突破的可能性。


二、Sora 发布——虚拟新世界的创造引擎


如果说Vision pro 头显是开启新世界大门的钥匙,那么Sora可以理解为虚拟新世界的创造引擎,所有呈现的内容在未来都可以由Sora来制作且呈现在使用者眼前。

众所周知,视频是不能P的这个定律,也随着sora的发布被打破了。



Sora 不仅仅是一个文生视频的软件,而是 作为世界模拟器的视频生成模型”,“他并不是仅仅对于现实世界的镜像,而是基于你的描述,构建新的一个符合现实世界物理规律和运转虚拟世界,第一次AI可以理解这个世界的定义,并且基于这些世界运转规律再进行二次创造。


1. Vision pro 与sora 结合——创造一个更加有趣的虚拟世界

Vision pro 头显显示技术呈现的是一个与现实结合的虚拟空间,背后是基于现有的流媒体素材进行3D化改造,但当虚拟3D流媒体素材视频不再是拘泥于现有的视频素材,是可以通过你的描述由Sora 自定义生成新的视频呢?

过去Vision pro 里搭建的3D媒体资源可以理解为是在一片鱼塘里寻找合适的鱼来匹配呈现,Sora的出现将整个鱼塘规模成几何倍扩大,可能是一整个海洋,甚至超越整个海洋的容量,通过这样大的资源库进行快速生成,不再受限于已有资源的限制,对于Vision pro来讲,用户使用和发挥的空间被放大到最大化。

大胆想象下,你可以通过自己的口述,让Sora 虚拟世界技术在Vision pro里搭建自己的新世界。甚至可以将梦中的画面口述出来,让sora帮你还原梦中1:1虚拟景象 ,通过Vision pro 呈现出来梦中的景象,在沉浸式技术的加持下,你自己就真实置身于自己搭建的虚幻世界中,参与其中,你还能分清虚拟和现实世界的差异性吗?



2. Vision pro 与sora结合不仅在于3D视频资源供给,而是打破了信息传递的介质

过去我们希望将脑海中的想法表达出来,需要通过自己将大脑中想法转化为其他人可理解的文字,图片,形状,尽可能降低折损传递,但无论如何都很难完美的呈现。

但通过Vision pro 与sora结合,你可以将你的想法通过口述方式传递给sora,由sora去生产还原你脑海中的想法,并支持可视化的在线编辑修改,最后由Vision pro 完美无损呈现你的可视化想法,完全不需要进行更多折损的转化路径。


3. 颠覆未来工作方式和生活方式

未来在公司宣讲或者讲课,开会等场景,大家可以想象下,呈现在我们面前的不再在是一个枯燥单调的word/ppt方案,而是一个通过声音和画面以及感知触摸方式进行交互的虚拟可视化方案,你不再是方案的旁观者,而是作为方案中的参与者去呈现,直接颠覆了未来的工作和生活方式。


如果再结合未来马斯克脑接口的神经连接实现,甚至省去口述的步骤,所想及所得,阿凡达的虚拟世界在未来真的有望实现。

未来每个人都可以拥有一个像科幻电影钢铁侠中属于自己贾维斯。

其实openAI已经为苹果Vision pro带来了ChatGPT,允许用户直接在应用程序中提出问题,获得答案,获得建议,甚至生成图像和文本。在不久的将来,我们将不再需要在聊天界面中输入信息,而是更频繁地通过与AI助手应用对话来表达我们的需求。

未来引入Sora的助力后,Vision pro呈现回答的方式会更加立体直观,比如遇到一个比较棘手的问题,如汽车引擎无法启动的故障,sora会自动生成一个汽车的拆解3D影响。一步步教你如何解决问题。



三、总结

虽然现阶段无论是Vision pro还是Sora仍有很多不足,包括被大家诟病的Vision pro尿袋设计,以及头显的太重的问题,Sora生成视频中也有一些违背自然规律翻车内容,也还未实现3D 显式建模。但随着科技的快速发展,按照目前迭代速度和算法持续优化,这些问题在不久将来一定可以解决。

我们要将眼光放长远一些,未来10年,甚至3-5年后再看这些产品,会发展的非常成熟和完善。不要忘了仅1年时间,Open AI就已经从GPT3-GPT4-迭代到Sora,放在过去完全不敢想象的进步, 技术的突飞猛进速度已远超出我们的预期和想象 ,所以科幻走进现实,只是早晚的事情。



Sora生成的视频截图。提示词:打印一个人跑步的场景,35 毫米电影胶片。

库克对Vision pro的希望是“定义下一个十年”,而生成式AI恰巧会在接下来的10年时间内快速发展。据彭博社最新报告显示,预计生成式AI市场规模将会在2032年扩大至1.3万亿美元。需要知道,2022年生成式AI的市场规模不过400亿美元,连1.3万亿美元的零头都不到。

如果说Vision pro能够搭上生成式AI这辆车,那么在接下来的10年时间里必定会成为苹果又一划时代的产品,而Sora和Vision pro的结合对于双方都是很好的补充,在虚拟和现实世界之间已经建立了一个链接,这让无论是头号玩家式的虚拟世界,还是机器人更像人类,都充满了更大的可能性。


相关文章
|
10天前
|
人工智能 机器人 芯片
【通义】AI视界|苹果发布macOS Sequoia 15.1最新公测版:可体验Apple Intelligence
本文概览了近期科技动态,包括英伟达与台积电合作遇阻、亿万富翁投资者Druckenmiller后悔清仓英伟达、阿斯麦财报显示芯片需求复苏缓慢、苹果发布macOS Sequoia 15.1公测版及波士顿动力与丰田合作推进人形机器人技术。更多信息,请访问通义。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
谷歌AI Gemini 官方网站是什么?国内如何使用Gemini 1.5 pro
Gemini是Google开发的先进大型语言模型(LLM),旨在处理多种自然语言处理任务,如文本生成、翻译、摘要和对话生成。作为Google AI项目的一部分,Gemini结合了最新的研究成果和技术,显著提高了自然语言处理的准确性和效率。该模型经过大量文本数据的训练,使其能够理解和生成高质量的文本。
|
3天前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
13 5
|
15天前
|
人工智能 自动驾驶 机器人
【通义】AI视界|苹果自动驾驶汽车项目画上句号:加州测试许可被取消
本文精选了24小时内的重要科技新闻,包括Waymo前CEO批评马斯克对自动驾驶的态度、AMD发布新款AI芯片但股价波动、苹果造车项目终止、Familia.AI推出家庭应用以及AI逆向绘画技术的进展。更多内容请访问通义官网体验。
|
1月前
|
人工智能 搜索推荐 安全
【通义】AI视界|苹果和谷歌受罚,欧盟监管部门“连斩”美国科技巨头。
苹果前设计官乔尼·艾夫确认正与OpenAI合作开发AI硬件,结合其设计经验与OpenAI技术,预期将推出革新智能设备。同时,苹果和谷歌因税务与垄断问题遭欧盟处罚,显示欧盟加强监管科技巨头。此外,新版Siri将在AI加持下于明年推出,提供更流畅的交互体验。微软则与上海医疗机构合作,运用AI辅助阿尔茨海默症治疗。最后,三哩岛核电站重启以满足微软数据中心的电力需求。
|
12天前
|
机器学习/深度学习 数据采集 人工智能
【紧跟AI浪潮】深度剖析:如何在大模型时代精准捕获用户心声——提高召回率的实战秘籍
【10月更文挑战第5天】在深度学习领域,大型模型常面临召回率不足的问题,尤其在信息检索和推荐系统中尤为关键。本文通过具体代码示例,介绍如何提升大模型召回率。首先,利用Pandas进行数据预处理,如清洗和特征工程;其次,选择合适的模型架构,如使用PyTorch构建推荐系统;再者,优化训练策略,采用合适的损失函数及正则化技术;此外,选择恰当的评估指标,如召回率和F1分数;最后,通过后处理优化结果展示。以上方法不仅提升召回率,还增强了模型整体性能。
39 0
|
16天前
|
人工智能 自然语言处理 搜索推荐
Sora - 探索AI视频模型的无限可能
这篇文章详细介绍了Sora AI视频模型的技术特点、应用场景、未来展望以及伦理和用户体验等方面的问题。
19 0
|
1月前
|
人工智能 运维 安全
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
分享了关于 AI 原生化趋势下服务器操作系统进化的思考,以及浪潮信息在龙蜥社区开源贡献的思路、成果与未来技术发展规划。
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|2分钟看完苹果发布会:iPhone16 5999元起售,全系支持苹果AI
本文精选了过去24小时内的重要科技新闻,包括苹果发布iPhone 16、Sora模型发布时间未定、快手可灵AI发布导演共创计划、高盛对ChatGPT流量下滑的误判以及vivo即将发布蓝心大模型。文章详细介绍了各新闻的关键信息和背景,帮助读者快速了解最新动态。点击链接访问通义官网,体验更多功能。
|
2月前
|
人工智能 自然语言处理 搜索推荐
苹果与EPFL合作发布4M AI模型,开启AI新时代
苹果与EPFL合作发布4M AI模型,开启AI新时代
苹果与EPFL合作发布4M AI模型,开启AI新时代