世界模型在具身环境中的决策中扮演着关键角色,它能够通过模拟环境动态,实现在现实世界中成本高昂的探索。然而,世界模型的泛化能力,即在未见过的数据上进行准确预测的能力,以及对模拟经验的不确定性估计,是两个主要挑战。
为了应对这些挑战,南大周志华团队提出了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning)框架。WHALE由两个关键技术组成:行为条件和回溯-展开。行为条件通过在模型中嵌入行为信息,使模型能够主动识别和适应不同行为模式,从而减少泛化误差。回溯-展开则是一种高效的不确定性估计技术,它避免了对多个模型进行计算昂贵的集成,而是通过回溯动作和展开过程来估计不确定性。
为了实现WHALE框架,研究团队提出了Whale-ST,一个基于空间-时间变换器(ST-transformer)的可扩展世界模型。Whale-ST的设计目标是实现对真实世界视觉控制任务的忠实长时预测。为了验证Whale-ST的有效性,研究团队在模拟的Meta-World基准和物理机器人平台上进行了广泛的实验,涵盖了各种基于像素的操作任务。
实验结果表明,Whale-ST在价值估计准确性和视频生成保真度方面都优于现有的世界模型学习方法。此外,基于回溯-展开技术的Whale-ST能够有效地捕捉模型预测误差,并增强离线策略优化使用想象经验。
为了进一步验证WHALE框架在真实世界任务中的泛化能力,研究团队提出了Whale-X,一个基于970k个真实世界机器人演示的414M参数世界模型。Whale-X被设计为评估真实世界行为的基础具身世界模型。
通过在完全未见过的环境中和机器人上进行微调,Whale-X展示了在视觉、运动和任务层面上的强大泛化能力。此外,通过扩大预训练数据集或模型参数,Whale-X在预训练和微调阶段都表现出了令人印象深刻的可扩展性。
WHALE框架的提出为世界模型的泛化能力和不确定性估计提供了新的解决方案。行为条件和回溯-展开技术的有效性在模拟和真实世界任务中的实验结果中得到了验证。Whale-ST和Whale-X的成功表明,WHALE框架在提升世界模型的决策支持能力方面具有巨大潜力。
然而,WHALE框架也存在一些限制。例如,真实世界机器人数据的多样性不足,通常由狭窄范围的策略(如近最优策略)收集,这给世界模型的泛化带来了挑战。此外,视觉输入的奖励模型质量对准确的价值估计起着关键作用,这仍然是一个未解决的挑战。