2024 年 12 月,Google DeepMind 发布 Genie 2。2025 年 8 月,Genie 3 亮相。2026 年 1 月,Project Genie 向付费用户开放。
一年多的时间,这条产品线经历了什么变化?
Genie 1:2D 的起点
故事要从更早说起。2024 年初发布的 Genie 1 只能生成 2D 环境,类似红白机时代的平台游戏画面。输入一张图片,模型会根据图片生成一个可以操控的 2D 世界。
那时候很多人觉得这是个有趣的实验,但实用性存疑。2D 游戏开发本来就不需要太复杂的工具,Game Maker 之类的软件已经很成熟了。
回头看,Genie 1 更像是一个概念验证:神经网络可以学会生成"可交互"的环境,而不只是静态图像或线性视频。
Genie 2:3D 的跨越
Genie 2 把生成的世界从 2D 变成了 3D。这个跨越比听起来要困难得多。
2D 世界只有两个维度,角色只能左右移动和跳跃。3D 世界有六个自由度:前后、左右、上下、加上三个旋转轴。环境的复杂度呈指数级增长。
Genie 2 做到了。你可以在生成的 3D 场景里自由行走,环境会根据你的视角变化。但问题也很明显。
视觉记忆只有 10 秒左右。走开一会儿再回来,场景可能已经变样了。物体的位置漂移,纹理变化,像一场不稳定的梦。
交互很有限。你能走动、能转头,但不能拾取物品、不能开门、不能和环境有更深的互动。
分辨率和帧率也不理想。具体数字没有公布,但从演示视频看,画质明显比不上同期的视频生成模型。
八个月的进化
从 2024 年 12 月到 2025 年 8 月,DeepMind 做了什么?
记忆时长提升:从 10 秒到"数分钟"。具体是几分钟没有明确说,但用户反馈大概在 2-3 分钟左右能保持较好的一致性。这是一个量级的提升。
分辨率和帧率确定:720p、24fps。这个规格在 Genie 2 时期是模糊的,Genie 3 给出了明确的参数。虽然数字不高,但至少是稳定可用的。
Promptable Events:新增的功能。可以在探索过程中用自然语言改变世界状态。"开始下雨"、"天黑了"、"一只猫走过来"。这在 Genie 2 里是没有的。
输入方式扩展:Genie 2 主要靠图片输入来引导场景风格。Genie 3 可以完全用文字描述,也可以用图片,或者两者结合。灵活性更高。
没有解决的问题
物理交互:Genie 3 的物体交互能力和 Genie 2 差不多,都是很基础的。你还是不能拾取物品、不能推动物体、不能打开容器。
精确控制:如果你想要一个特定布局的场景——比如门在左边、窗户在右边、桌子在中间——你很难通过提示词精确控制。模型有自己的"理解",生成结果有随机性。
长期一致性:虽然记忆时长增加了,但根本问题没有解决。探索超过几分钟,场景仍然会漂移。对于需要长时间游玩的应用来说,这还是个障碍。
商业化的步伐
Genie 3 发布时是"有限研究预览",只对学术界和选定的创作者开放。
2026 年 1 月,Google 把它包装成 Project Genie,放进 AI Ultra 订阅中,向付费用户开放。这是世界模型走向商业化的第一步。
$249.99 的月费不便宜,但考虑到 AI Ultra 还包含其他服务,也不是完全不合理。问题是 Genie 目前的能力能否支撑起这个价格的期待值。
从社区反馈看,很多人试用后觉得"有意思但还不够实用"。这和技术预览时期的评价差不多。产品化没有带来核心能力的显著提升。
和竞品的差距变化
2024 年 12 月发布 Genie 2 时,世界模型赛道还没有太多竞争。
一年后,情况不同了。OpenAI 的 Sora 虽然走的是视频生成路线,但有些应用场景是重叠的。World Labs(由 Fei-Fei Li 创立)也在做 3D 场景生成,走的是不同的技术路线。
Genie 3 在"实时交互"这个点上仍然领先。Sora 不能交互,World Labs 的产品还没有公开发布。但领先优势能维持多久是个问题。
接下来会是什么
如果让我猜 Genie 4 会改进什么:
更长的记忆:从分钟级到小时级。这是最明显的短板,也是最影响实用性的问题。
更高的分辨率:1080p 是基本预期。4K 可能还需要更长时间。
物理交互:能拾取物品、能推动物体、能开关门窗。这会打开很多应用场景。
更好的控制性:能通过结构化的输入(比如布局图、规格参数)精确控制场景生成,而不只是靠自然语言。
这些都是工程问题,没有根本性的技术障碍。问题是需要多长时间,以及竞争对手会不会更快解决。
我的观察
从 Genie 1 到 Genie 3,Google 展现了清晰的迭代节奏:先验证概念,再提升维度,再优化参数,最后商业化。
这条路线走得很稳。但"稳"有时候也意味着不够激进。其他公司可能会用更冒险的方法实现更快的突破。
对于关注这个领域的人来说,接下来的一年会很有看头。Genie 4 什么时候出?竞争对手会有什么动作?世界模型会不会成为下一个 AI 应用的热点?
答案还不知道。但至少可以确定,世界模型不再是纸面上的概念,而是真的有产品可以体验了。这本身就是进步。