在人工智能和机器人领域,能够根据控制动作预测未来结果的能力是物理推理的基础。然而,这种被称为世界模型的预测模型在学习和开发上一直面临挑战,通常需要针对特定任务进行在线策略学习。纽约大学的Gaoyue Zhou等人提出了一种新方法,利用预训练的视觉特征构建世界模型,从而实现零样本规划。
世界模型的真正潜力在于其能够仅使用被动数据对各种问题进行推理和规划。具体来说,世界模型应具备以下三个特性:
- 离线训练:能够在不访问环境的情况下,使用预先收集的轨迹数据进行训练。
- 测试时行为优化:能够在测试时根据目标进行行为优化。
- 任务无关性:能够泛化到不同的任务,而不仅仅是训练中遇到的任务。
为了实现上述特性,作者提出了DINO World Model(DINO-WM),一种不重建视觉世界即可建模视觉动态的新方法。DINO-WM利用了由DINOv2预训练的空间补丁特征,使其能够通过预测未来的补丁特征来学习离线行为轨迹。这种设计允许DINO-WM通过优化动作序列来实现观察目标,从而实现任务无关的行为规划。
作者在各种领域评估了DINO-WM,包括迷宫导航、桌面推动和粒子操纵。实验结果表明,DINO-WM能够在测试时生成零样本行为解决方案,而无需依赖专家演示、奖励建模或预训练的逆模型。特别地,DINO-WM在与先前最先进的方法相比时,表现出了强大的泛化能力,能够适应各种任务,如任意配置的迷宫、具有不同物体形状的推动操作以及多粒子场景。
DINO-WM在多个方面对现有工作进行了改进:
- 高质量的未来世界建模:DINO-WM能够生成高质量的未来世界模型,这可以通过使用训练好的解码器进行改进的视觉重建来衡量。在最困难的任务上,DINO-WM在LPIPS指标上比先前最先进的方法提高了56%。
- 高成功率的任意目标达成:在使用DINO-WM训练的潜在世界模型上,作者展示了在最困难的任务上达成任意目标的高成功率,平均比先前的工作提高了45%。
- 跨环境变化的泛化:DINO-WM能够在任务家族内的不同环境变化上进行训练(例如,不同布局的迷宫或不同形状的物体操作),并实现比先前工作更高的成功率。
DINO-WM的工作为世界模型的发展提供了新的思路,并可能对未来的研究产生以下影响:
- 任务无关的世界模型:DINO-WM展示了一种构建任务无关世界模型的方法,这可能为在各种环境中的通用机器人学习铺平道路。
- 零样本规划:DINO-WM的零样本规划能力可能为在没有先验知识的情况下解决新任务提供新的方法。
- 预训练视觉特征的应用:DINO-WM的工作强调了预训练视觉特征在机器人学习中的潜力,可能鼓励更多的研究探索这些特征在其他领域的应用。
尽管DINO-WM取得了令人印象深刻的结果,但仍存在一些局限性,可能为未来的研究提供方向:
- 对地面真实动作的依赖:DINO-WM仍然依赖于从代理中获得的地面真实动作,这可能在使用大量互联网视频数据进行训练时不切实际。
- 行动空间规划:目前,DINO-WM在行动空间中进行规划以解决下游任务。未来的工作可以探索将高层规划与低层控制策略相结合的层次结构,以解决更精细的控制任务。