从 Genie 2 到 Genie 3:一年间世界模型发生了什么

简介: 2024–2026年,Google DeepMind的Genie系列从2D概念验证(Genie 1)跃升至3D可交互世界(Genie 2),再进化为支持自然语言事件调控、多模态输入与分钟级记忆的Genie 3;2026年1月以Project Genie正式商用,标志世界模型迈入实用化新阶段。

2024 年 12 月,Google DeepMind 发布 Genie 2。2025 年 8 月,Genie 3 亮相。2026 年 1 月,Project Genie 向付费用户开放。

一年多的时间,这条产品线经历了什么变化?

Genie 1:2D 的起点

故事要从更早说起。2024 年初发布的 Genie 1 只能生成 2D 环境,类似红白机时代的平台游戏画面。输入一张图片,模型会根据图片生成一个可以操控的 2D 世界。

那时候很多人觉得这是个有趣的实验,但实用性存疑。2D 游戏开发本来就不需要太复杂的工具,Game Maker 之类的软件已经很成熟了。

回头看,Genie 1 更像是一个概念验证:神经网络可以学会生成"可交互"的环境,而不只是静态图像或线性视频。

Genie 2:3D 的跨越

Genie 2 把生成的世界从 2D 变成了 3D。这个跨越比听起来要困难得多。

2D 世界只有两个维度,角色只能左右移动和跳跃。3D 世界有六个自由度:前后、左右、上下、加上三个旋转轴。环境的复杂度呈指数级增长。

Genie 2 做到了。你可以在生成的 3D 场景里自由行走,环境会根据你的视角变化。但问题也很明显。

视觉记忆只有 10 秒左右。走开一会儿再回来,场景可能已经变样了。物体的位置漂移,纹理变化,像一场不稳定的梦。

交互很有限。你能走动、能转头,但不能拾取物品、不能开门、不能和环境有更深的互动。

分辨率和帧率也不理想。具体数字没有公布,但从演示视频看,画质明显比不上同期的视频生成模型。

八个月的进化

从 2024 年 12 月到 2025 年 8 月,DeepMind 做了什么?

记忆时长提升:从 10 秒到"数分钟"。具体是几分钟没有明确说,但用户反馈大概在 2-3 分钟左右能保持较好的一致性。这是一个量级的提升。

分辨率和帧率确定:720p、24fps。这个规格在 Genie 2 时期是模糊的,Genie 3 给出了明确的参数。虽然数字不高,但至少是稳定可用的。

Promptable Events:新增的功能。可以在探索过程中用自然语言改变世界状态。"开始下雨"、"天黑了"、"一只猫走过来"。这在 Genie 2 里是没有的。

输入方式扩展:Genie 2 主要靠图片输入来引导场景风格。Genie 3 可以完全用文字描述,也可以用图片,或者两者结合。灵活性更高。

没有解决的问题

物理交互:Genie 3 的物体交互能力和 Genie 2 差不多,都是很基础的。你还是不能拾取物品、不能推动物体、不能打开容器。

精确控制:如果你想要一个特定布局的场景——比如门在左边、窗户在右边、桌子在中间——你很难通过提示词精确控制。模型有自己的"理解",生成结果有随机性。

长期一致性:虽然记忆时长增加了,但根本问题没有解决。探索超过几分钟,场景仍然会漂移。对于需要长时间游玩的应用来说,这还是个障碍。

商业化的步伐

Genie 3 发布时是"有限研究预览",只对学术界和选定的创作者开放。

2026 年 1 月,Google 把它包装成 Project Genie,放进 AI Ultra 订阅中,向付费用户开放。这是世界模型走向商业化的第一步。

$249.99 的月费不便宜,但考虑到 AI Ultra 还包含其他服务,也不是完全不合理。问题是 Genie 目前的能力能否支撑起这个价格的期待值。

从社区反馈看,很多人试用后觉得"有意思但还不够实用"。这和技术预览时期的评价差不多。产品化没有带来核心能力的显著提升。

和竞品的差距变化

2024 年 12 月发布 Genie 2 时,世界模型赛道还没有太多竞争。

一年后,情况不同了。OpenAI 的 Sora 虽然走的是视频生成路线,但有些应用场景是重叠的。World Labs(由 Fei-Fei Li 创立)也在做 3D 场景生成,走的是不同的技术路线。

Genie 3 在"实时交互"这个点上仍然领先。Sora 不能交互,World Labs 的产品还没有公开发布。但领先优势能维持多久是个问题。

接下来会是什么

如果让我猜 Genie 4 会改进什么:

更长的记忆:从分钟级到小时级。这是最明显的短板,也是最影响实用性的问题。

更高的分辨率:1080p 是基本预期。4K 可能还需要更长时间。

物理交互:能拾取物品、能推动物体、能开关门窗。这会打开很多应用场景。

更好的控制性:能通过结构化的输入(比如布局图、规格参数)精确控制场景生成,而不只是靠自然语言。

这些都是工程问题,没有根本性的技术障碍。问题是需要多长时间,以及竞争对手会不会更快解决。

我的观察

从 Genie 1 到 Genie 3,Google 展现了清晰的迭代节奏:先验证概念,再提升维度,再优化参数,最后商业化。

这条路线走得很稳。但"稳"有时候也意味着不够激进。其他公司可能会用更冒险的方法实现更快的突破。

对于关注这个领域的人来说,接下来的一年会很有看头。Genie 4 什么时候出?竞争对手会有什么动作?世界模型会不会成为下一个 AI 应用的热点?

答案还不知道。但至少可以确定,世界模型不再是纸面上的概念,而是真的有产品可以体验了。这本身就是进步。

目录
相关文章
|
9天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
5天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
4046 13
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
7天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
6772 14
|
5天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
4334 5
|
4天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
3041 8
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
7天前
|
人工智能 JavaScript API
零门槛部署本地 AI 助手:Clawdbot/Meltbot 部署深度保姆级教程
Clawdbot(Moltbot)是一款智能体AI助手,具备“手”(读写文件、执行代码)、“脚”(联网搜索、分析网页)和“脑”(接入Qwen/OpenAI等API或本地GPU模型)。本指南详解Windows下从Node.js环境搭建、一键安装到Token配置的全流程,助你快速部署本地AI助理。(239字)
4432 21
|
13天前
|
人工智能 API 开发者
Claude Code 国内保姆级使用指南:实测 GLM-4.7 与 Claude Opus 4.5 全方案解
Claude Code是Anthropic推出的编程AI代理工具。2026年国内开发者可通过配置`ANTHROPIC_BASE_URL`实现本地化接入:①极速平替——用Qwen Code v0.5.0或GLM-4.7,毫秒响应,适合日常编码;②满血原版——经灵芽API中转调用Claude Opus 4.5,胜任复杂架构与深度推理。
8079 12
|
3天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
2014 4