苹果Vision Pro携Sora引领AI的新浪潮,XR硬件未来探索之旅

简介: 苹果Vision pro刚刚发布,一跃成为迄今最先进的虚拟现实和增强现实眼镜,苹果公司将其称为“空间计算机”。OpenAI的创始人兼首席执行官山姆·奥特曼评价:苹果Vision pro是自iPhone以后第二惊艳的技术。实际上手体验时,当你带上眼睛后,沉浸式呈现眼前是一个虚拟空间,它以高分辨率屏幕,支持重放事件和人物的三维视频录像,看起来就像置身其中,只需要通过简单的眼神和隔空手势操作。

原文链接:https://www.woshipm.com/share/5995951.html

Vision Pro 的出现,搭建起了虚拟世界和现实世界的桥梁,而 Sora 模型的出现,则又为 Vision Pro 的落地可能性添加了更多火花。怎么看待Vision Pro + Sora 的结合?一起来看看本文的解读与分享。



今年2月份两个产品的发布,在2024新年一开年扔出了王炸,一个是2024年2月2日的 苹果公司 Vision pro头显发布,另外一个是同年2月16日 Open AI 发布的Sora 文生视频的虚拟世界模拟器生成模型,我们来看下两个王炸产品碰撞在一起,会激发出什么样的火花?


一、Vision pro——新时代的空间计算机

苹果Vision pro刚刚发布,一跃成为迄今最先进的虚拟现实和增强现实眼镜,苹果公司将其称为“空间计算机”。

OpenAI的创始人兼首席执行官山姆·奥特曼评价:苹果Vision pro是自iPhone以后第二惊艳的技术。实际上手体验时,当你带上眼睛后,沉浸式呈现眼前是一个虚拟空间,它以高分辨率屏幕,支持重放事件和人物的三维视频录像,看起来就像置身其中,只需要通过简单的眼神和隔空手势操作。



瞬间革新您的沉浸式体验。同时,OpenAI也携最新力作GPT-4引领智能对话新浪潮,升级交互无界限。立刻体验无与伦比的虚拟现实世界,同享GPT-4带来的智慧,探索“真实世界”。需要注册或者升级可以参考这个教程:

24年最新版升级 ChatGPT Plus 的教程(一分钟完成)


1. Vision pro 定位:打通虚拟世界与现实世界的桥梁,呈现虚拟世界的载体

Vision pro出现让空间计算这个词得到现实中完美呈现,简单说将我们周围的现实物理世界和虚拟世界无缝整合,同时让人类可以实现毫无违和感地操控物体和空间,提供了一种全新的互动体验。

再夸张一些,在Vision pro搭建世界中,将虚拟和物理世界融为一体了,不论是一辆汽车还是一台电视,都将成为空间计算设备。


通过Vision pro强大的空间计算能力,可以用户提供高清晰度、强互动性的沉浸式风景展现:置身于月球登陆,探索南极洲冰川。



2. Vision pro现阶段瓶颈——沉浸式体验资源生产匮乏

虽然Vision pro在技术和体验上实现了重大突破,但仍存在诸多不足,需要进一步完善和优化。比如在于虚拟世界的搭建上和3D电影 沉浸式影片照片体验,现阶段都是基于VisionPro头显专用流媒体资源(至今为止可以访问仅150 深度的3D娱乐项目),且需要依赖于强大的虚拟世界搭建引擎和海量可支持3D的视频模型资源,哪怕是内置的3D摄像头可以拍摄照片或视频,但也需要用户自主去捕捉拍摄,才能实现进一步呈现。

而这一切的资源限制,随着OpenAI Sora近期发布,让一切限制有了突破的可能性。


二、Sora 发布——虚拟新世界的创造引擎


如果说Vision pro 头显是开启新世界大门的钥匙,那么Sora可以理解为虚拟新世界的创造引擎,所有呈现的内容在未来都可以由Sora来制作且呈现在使用者眼前。

众所周知,视频是不能P的这个定律,也随着sora的发布被打破了。



Sora 不仅仅是一个文生视频的软件,而是 作为世界模拟器的视频生成模型”,“他并不是仅仅对于现实世界的镜像,而是基于你的描述,构建新的一个符合现实世界物理规律和运转虚拟世界,第一次AI可以理解这个世界的定义,并且基于这些世界运转规律再进行二次创造。


1. Vision pro 与sora 结合——创造一个更加有趣的虚拟世界

Vision pro 头显显示技术呈现的是一个与现实结合的虚拟空间,背后是基于现有的流媒体素材进行3D化改造,但当虚拟3D流媒体素材视频不再是拘泥于现有的视频素材,是可以通过你的描述由Sora 自定义生成新的视频呢?

过去Vision pro 里搭建的3D媒体资源可以理解为是在一片鱼塘里寻找合适的鱼来匹配呈现,Sora的出现将整个鱼塘规模成几何倍扩大,可能是一整个海洋,甚至超越整个海洋的容量,通过这样大的资源库进行快速生成,不再受限于已有资源的限制,对于Vision pro来讲,用户使用和发挥的空间被放大到最大化。

大胆想象下,你可以通过自己的口述,让Sora 虚拟世界技术在Vision pro里搭建自己的新世界。甚至可以将梦中的画面口述出来,让sora帮你还原梦中1:1虚拟景象 ,通过Vision pro 呈现出来梦中的景象,在沉浸式技术的加持下,你自己就真实置身于自己搭建的虚幻世界中,参与其中,你还能分清虚拟和现实世界的差异性吗?



2. Vision pro 与sora结合不仅在于3D视频资源供给,而是打破了信息传递的介质

过去我们希望将脑海中的想法表达出来,需要通过自己将大脑中想法转化为其他人可理解的文字,图片,形状,尽可能降低折损传递,但无论如何都很难完美的呈现。

但通过Vision pro 与sora结合,你可以将你的想法通过口述方式传递给sora,由sora去生产还原你脑海中的想法,并支持可视化的在线编辑修改,最后由Vision pro 完美无损呈现你的可视化想法,完全不需要进行更多折损的转化路径。


3. 颠覆未来工作方式和生活方式

未来在公司宣讲或者讲课,开会等场景,大家可以想象下,呈现在我们面前的不再在是一个枯燥单调的word/ppt方案,而是一个通过声音和画面以及感知触摸方式进行交互的虚拟可视化方案,你不再是方案的旁观者,而是作为方案中的参与者去呈现,直接颠覆了未来的工作和生活方式。


如果再结合未来马斯克脑接口的神经连接实现,甚至省去口述的步骤,所想及所得,阿凡达的虚拟世界在未来真的有望实现。

未来每个人都可以拥有一个像科幻电影钢铁侠中属于自己贾维斯。

其实openAI已经为苹果Vision pro带来了ChatGPT,允许用户直接在应用程序中提出问题,获得答案,获得建议,甚至生成图像和文本。在不久的将来,我们将不再需要在聊天界面中输入信息,而是更频繁地通过与AI助手应用对话来表达我们的需求。

未来引入Sora的助力后,Vision pro呈现回答的方式会更加立体直观,比如遇到一个比较棘手的问题,如汽车引擎无法启动的故障,sora会自动生成一个汽车的拆解3D影响。一步步教你如何解决问题。



三、总结

虽然现阶段无论是Vision pro还是Sora仍有很多不足,包括被大家诟病的Vision pro尿袋设计,以及头显的太重的问题,Sora生成视频中也有一些违背自然规律翻车内容,也还未实现3D 显式建模。但随着科技的快速发展,按照目前迭代速度和算法持续优化,这些问题在不久将来一定可以解决。

我们要将眼光放长远一些,未来10年,甚至3-5年后再看这些产品,会发展的非常成熟和完善。不要忘了仅1年时间,Open AI就已经从GPT3-GPT4-迭代到Sora,放在过去完全不敢想象的进步, 技术的突飞猛进速度已远超出我们的预期和想象 ,所以科幻走进现实,只是早晚的事情。



Sora生成的视频截图。提示词:打印一个人跑步的场景,35 毫米电影胶片。

库克对Vision pro的希望是“定义下一个十年”,而生成式AI恰巧会在接下来的10年时间内快速发展。据彭博社最新报告显示,预计生成式AI市场规模将会在2032年扩大至1.3万亿美元。需要知道,2022年生成式AI的市场规模不过400亿美元,连1.3万亿美元的零头都不到。

如果说Vision pro能够搭上生成式AI这辆车,那么在接下来的10年时间里必定会成为苹果又一划时代的产品,而Sora和Vision pro的结合对于双方都是很好的补充,在虚拟和现实世界之间已经建立了一个链接,这让无论是头号玩家式的虚拟世界,还是机器人更像人类,都充满了更大的可能性。


相关文章
|
2月前
|
人工智能 自然语言处理 搜索推荐
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
|
6月前
|
人工智能 运维 算法
AI浪潮下程序员的职业重构与生存指南
当代码生成器能写出比人类更规范的代码时,程序员的价值在哪里?这个问题曾让我陷入长时间的思考
|
3月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
7月前
|
人工智能 自然语言处理 搜索推荐
AI浪潮下,医生、老师、律师何以不失业?
本文探讨了人工智能(AI)在医生、老师和律师等传统职业中的应用,强调AI与其说是替代,不如说是辅助与协作的关系。在医疗领域,AI助力医生提高诊断效率;在教育行业,AI为老师提供个性化教学支持;在法律界,AI帮助律师优化案件分析。同时,生成式人工智能认证(GAI认证)可提升从业者竞争力,推动跨领域合作。总之,AI不仅不会导致失业,反而将促进这些职业的转型升级,创造更多价值与发展机会。
|
3月前
|
人工智能 文字识别 供应链
高校实验实训课程开发:基于现有的硬件基础和开源能力研发最前沿的AI实验课程
更多基于学校现有硬件基础:企业需求场景的开发和发展,更加注重上层数据和应用,各类工具软件的出现,极大提升了各类硬件的应用价值。我们看到各类硬件厂商,想方设法把硬件卖给学校,但是很多硬件不是在那里尘封,就是寥寥无几的使用场景,我们希望基于学校现有的硬件基础去开发更多面向不同行业或专业的实验实训课程,物尽其用。基于学校现有的硬件,集约开发,极大降低硬件投入成本。
124 7
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 大模型浪潮下,中小企业的机遇与破局之道
选择合适的大模型服务提供商是关键,目前市场上有许多大模型服务提供商,如百度的文心一言、阿里的通义千问、腾讯的混元大模型等,它们提供了丰富的 API 接口和定制化服务,中小企业可以根据自身需求和预算,选择适合自己的大模型服务,无需自行搭建复杂的技术架构和训练模型,降低了技术门槛和成本。
|
存储 机器学习/深度学习 人工智能
阿里云ODPS:在AI浪潮之巅,铸就下一代智能数据根基
在智能爆炸时代,ODPS正从传统数据平台进化为“AI操作系统”。面对千亿参数模型与实时决策挑战,ODPS通过流批一体架构、多模态处理、智能资源调度等技术创新,大幅提升效率与智能化水平。从自动驾驶到医疗联合建模,从数字孪生到低代码AI开发,ODPS正重塑企业数据生产力,助力全球客户在算力洪流中抢占先机。
123 0
|
7月前
|
人工智能 API 语音技术
HarmonyOS Next~鸿蒙AI功能开发:Core Speech Kit与Core Vision Kit的技术解析与实践
本文深入解析鸿蒙操作系统(HarmonyOS)中的Core Speech Kit与Core Vision Kit,探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互,提供语音识别、合成等功能,支持多场景应用;Core Vision Kit专注视觉处理,涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势,展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。
397 31

热门文章

最新文章