从 Genie 2 到 Genie 3:一年间世界模型发生了什么

简介: 2024–2026年,Google DeepMind的Genie系列从2D概念验证(Genie 1)跃升至3D可交互世界(Genie 2),再进化为支持自然语言事件调控、多模态输入与分钟级记忆的Genie 3;2026年1月以Project Genie正式商用,标志世界模型迈入实用化新阶段。

2024 年 12 月,Google DeepMind 发布 Genie 2。2025 年 8 月,Genie 3 亮相。2026 年 1 月,Project Genie 向付费用户开放。

一年多的时间,这条产品线经历了什么变化?

Genie 1:2D 的起点

故事要从更早说起。2024 年初发布的 Genie 1 只能生成 2D 环境,类似红白机时代的平台游戏画面。输入一张图片,模型会根据图片生成一个可以操控的 2D 世界。

那时候很多人觉得这是个有趣的实验,但实用性存疑。2D 游戏开发本来就不需要太复杂的工具,Game Maker 之类的软件已经很成熟了。

回头看,Genie 1 更像是一个概念验证:神经网络可以学会生成"可交互"的环境,而不只是静态图像或线性视频。

Genie 2:3D 的跨越

Genie 2 把生成的世界从 2D 变成了 3D。这个跨越比听起来要困难得多。

2D 世界只有两个维度,角色只能左右移动和跳跃。3D 世界有六个自由度:前后、左右、上下、加上三个旋转轴。环境的复杂度呈指数级增长。

Genie 2 做到了。你可以在生成的 3D 场景里自由行走,环境会根据你的视角变化。但问题也很明显。

视觉记忆只有 10 秒左右。走开一会儿再回来,场景可能已经变样了。物体的位置漂移,纹理变化,像一场不稳定的梦。

交互很有限。你能走动、能转头,但不能拾取物品、不能开门、不能和环境有更深的互动。

分辨率和帧率也不理想。具体数字没有公布,但从演示视频看,画质明显比不上同期的视频生成模型。

八个月的进化

从 2024 年 12 月到 2025 年 8 月,DeepMind 做了什么?

记忆时长提升:从 10 秒到"数分钟"。具体是几分钟没有明确说,但用户反馈大概在 2-3 分钟左右能保持较好的一致性。这是一个量级的提升。

分辨率和帧率确定:720p、24fps。这个规格在 Genie 2 时期是模糊的,Genie 3 给出了明确的参数。虽然数字不高,但至少是稳定可用的。

Promptable Events:新增的功能。可以在探索过程中用自然语言改变世界状态。"开始下雨"、"天黑了"、"一只猫走过来"。这在 Genie 2 里是没有的。

输入方式扩展:Genie 2 主要靠图片输入来引导场景风格。Genie 3 可以完全用文字描述,也可以用图片,或者两者结合。灵活性更高。

没有解决的问题

物理交互:Genie 3 的物体交互能力和 Genie 2 差不多,都是很基础的。你还是不能拾取物品、不能推动物体、不能打开容器。

精确控制:如果你想要一个特定布局的场景——比如门在左边、窗户在右边、桌子在中间——你很难通过提示词精确控制。模型有自己的"理解",生成结果有随机性。

长期一致性:虽然记忆时长增加了,但根本问题没有解决。探索超过几分钟,场景仍然会漂移。对于需要长时间游玩的应用来说,这还是个障碍。

商业化的步伐

Genie 3 发布时是"有限研究预览",只对学术界和选定的创作者开放。

2026 年 1 月,Google 把它包装成 Project Genie,放进 AI Ultra 订阅中,向付费用户开放。这是世界模型走向商业化的第一步。

$249.99 的月费不便宜,但考虑到 AI Ultra 还包含其他服务,也不是完全不合理。问题是 Genie 目前的能力能否支撑起这个价格的期待值。

从社区反馈看,很多人试用后觉得"有意思但还不够实用"。这和技术预览时期的评价差不多。产品化没有带来核心能力的显著提升。

和竞品的差距变化

2024 年 12 月发布 Genie 2 时,世界模型赛道还没有太多竞争。

一年后,情况不同了。OpenAI 的 Sora 虽然走的是视频生成路线,但有些应用场景是重叠的。World Labs(由 Fei-Fei Li 创立)也在做 3D 场景生成,走的是不同的技术路线。

Genie 3 在"实时交互"这个点上仍然领先。Sora 不能交互,World Labs 的产品还没有公开发布。但领先优势能维持多久是个问题。

接下来会是什么

如果让我猜 Genie 4 会改进什么:

更长的记忆:从分钟级到小时级。这是最明显的短板,也是最影响实用性的问题。

更高的分辨率:1080p 是基本预期。4K 可能还需要更长时间。

物理交互:能拾取物品、能推动物体、能开关门窗。这会打开很多应用场景。

更好的控制性:能通过结构化的输入(比如布局图、规格参数)精确控制场景生成,而不只是靠自然语言。

这些都是工程问题,没有根本性的技术障碍。问题是需要多长时间,以及竞争对手会不会更快解决。

我的观察

从 Genie 1 到 Genie 3,Google 展现了清晰的迭代节奏:先验证概念,再提升维度,再优化参数,最后商业化。

这条路线走得很稳。但"稳"有时候也意味着不够激进。其他公司可能会用更冒险的方法实现更快的突破。

对于关注这个领域的人来说,接下来的一年会很有看头。Genie 4 什么时候出?竞争对手会有什么动作?世界模型会不会成为下一个 AI 应用的热点?

答案还不知道。但至少可以确定,世界模型不再是纸面上的概念,而是真的有产品可以体验了。这本身就是进步。

目录
相关文章
|
5月前
|
人工智能 自然语言处理 搜索推荐
2026AI数字人技术、场景双驱动技术指导
AI数字人融合人工智能、3D渲染、语音合成等技术,具备类人外观与交互能力,广泛应用于客服、教育、医疗、娱乐等领域。依托大模型与多模态技术,正迈向个性化、轻量化与元宇宙融合,推动产业数字化升级。
|
15天前
|
人工智能 IDE 开发工具
编程范式的下一次跃迁:深度解析全新的 GitHub Copilot 独立桌面应用
2026年5月,GitHub发布Copilot独立桌面App技术预览版,标志着AI编程从IDE插件迈向原生智能体开发环境。它以Issue/PR为起点,提供隔离会话、内置终端与浏览器、自动合并PR等能力,实现“输入问题→输出通过CI的PR”闭环,推动开发者角色向高阶审查者演进。
511 2
|
4月前
|
机器学习/深度学习 编解码 JSON
FantasyWorld 正式开源!一次前向传播,同时生成视频与 3D 几何——视频世界模型的新范
高德地图发布「FantasyWorld」——新一代几何一致世界模型,单次前向即可生成高质量视频与3D场景(深度图、点云、相机轨迹),无需后处理或逐场景优化。ICLR 2026录用,WorldScore榜首,已开源代码与模型。
890 6
|
6月前
|
人工智能 安全 机器人
2026 年 19 款最佳 AI 生产力工具:分级排名
还记得 2023 年吗?那时候,仿佛每隔 45 分钟就有一款新的“颠覆性” AI 工具横空出世。 而到了今天,我们都有过在某个令人抓狂的周二下午,跟一个死不认错的聊天机器人争论不休的经历。现在,我们正经历着“订阅疲劳”,面对着那些已经好几个月没碰过的工具账单感到厌倦。 但当我们展望 2026 年时,风向已经变了。早期的惊奇与憧憬已烟消云散,取而代之的是一个简单而急切的问题:这些工具真的能帮我们搞定日常工作吗?
3627 9
|
机器学习/深度学习 人工智能 算法
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。
1050 0
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
|
10月前
|
传感器 编解码 算法
ASTER 全球发射率数据集,每月,0.05 度,HDF5
ASTER全球发射率数据集(AG5KMMOH V4)提供0.05度月度分辨率的全球地表发射率信息,覆盖2000至2015年。该数据集基于ASTER传感器与MODIS产品,结合TES算法和MODTRAN模型进行大气校正,由NASA JPL开发。2016年12月起停止更新。
251 0
|
11月前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
1273 1
|
监控 Linux 应用服务中间件
探索Linux中的`ps`命令:进程监控与分析的利器
探索Linux中的`ps`命令:进程监控与分析的利器
613 13
|
机器学习/深度学习 自动驾驶 机器人
深度学习之人类行为模仿
基于深度学习的人类行为模仿是指利用深度学习技术构建模型,使计算机系统能够学习、理解、并模仿人类的行为。通过模拟人类的动作、决策过程、情感反应等行为,相关技术在机器人、虚拟助手、人机交互等领域具有广泛的应用前景。
482 5