WHALE来了,南大周志华团队做出更强泛化的世界模型

简介: 南大周志华团队提出WHALE框架,应对世界模型在具身环境中决策的泛化与不确定性估计挑战。WHALE包含行为条件和回溯-展开两项关键技术,提升模型适应不同行为模式及预测准确性。基于此框架的Whale-ST和Whale-X模型在模拟和真实机器人任务中表现出色,验证了其在视觉控制任务中的长时预测和泛化能力。论文:https://arxiv.org/pdf/2411.05619

世界模型在具身环境中的决策中扮演着关键角色,它能够通过模拟环境动态,实现在现实世界中成本高昂的探索。然而,世界模型的泛化能力,即在未见过的数据上进行准确预测的能力,以及对模拟经验的不确定性估计,是两个主要挑战。

为了应对这些挑战,南大周志华团队提出了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning)框架。WHALE由两个关键技术组成:行为条件和回溯-展开。行为条件通过在模型中嵌入行为信息,使模型能够主动识别和适应不同行为模式,从而减少泛化误差。回溯-展开则是一种高效的不确定性估计技术,它避免了对多个模型进行计算昂贵的集成,而是通过回溯动作和展开过程来估计不确定性。

为了实现WHALE框架,研究团队提出了Whale-ST,一个基于空间-时间变换器(ST-transformer)的可扩展世界模型。Whale-ST的设计目标是实现对真实世界视觉控制任务的忠实长时预测。为了验证Whale-ST的有效性,研究团队在模拟的Meta-World基准和物理机器人平台上进行了广泛的实验,涵盖了各种基于像素的操作任务。

实验结果表明,Whale-ST在价值估计准确性和视频生成保真度方面都优于现有的世界模型学习方法。此外,基于回溯-展开技术的Whale-ST能够有效地捕捉模型预测误差,并增强离线策略优化使用想象经验。

为了进一步验证WHALE框架在真实世界任务中的泛化能力,研究团队提出了Whale-X,一个基于970k个真实世界机器人演示的414M参数世界模型。Whale-X被设计为评估真实世界行为的基础具身世界模型。

通过在完全未见过的环境中和机器人上进行微调,Whale-X展示了在视觉、运动和任务层面上的强大泛化能力。此外,通过扩大预训练数据集或模型参数,Whale-X在预训练和微调阶段都表现出了令人印象深刻的可扩展性。

WHALE框架的提出为世界模型的泛化能力和不确定性估计提供了新的解决方案。行为条件和回溯-展开技术的有效性在模拟和真实世界任务中的实验结果中得到了验证。Whale-ST和Whale-X的成功表明,WHALE框架在提升世界模型的决策支持能力方面具有巨大潜力。

然而,WHALE框架也存在一些限制。例如,真实世界机器人数据的多样性不足,通常由狭窄范围的策略(如近最优策略)收集,这给世界模型的泛化带来了挑战。此外,视觉输入的奖励模型质量对准确的价值估计起着关键作用,这仍然是一个未解决的挑战。

论文地址:https://arxiv.org/pdf/2411.05619

目录
打赏
0
39
40
4
396
分享
相关文章
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
113 6
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
|
1月前
|
LLM破局泛化诊断难题,MSSP刊登北航PHM实验室健康管理大模型交叉研究
北航PHM实验室提出了一种基于大型语言模型(LLM)的轴承故障诊断框架,结合传统诊断技术,解决了跨条件适应性、小样本学习和跨数据集泛化等问题。该框架通过信号特征量化方法提取振动数据的语义信息,并采用LoRA和QLoRA微调预训练模型,显著提升了诊断模型的泛化能力。实验结果显示,在跨数据集训练中,模型准确性提升了约10%,相关成果发表于《Mechanical Systems and Signal Processing》期刊。尽管存在计算资源需求高等挑战,该研究为旋转机械的高效维护提供了新思路。
47 2
MME-CoT:多模态模型推理能力终极评测!六大领域细粒度评估,港中大等机构联合推出
MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,提供细粒度的推理质量、鲁棒性和效率评估。
75 0
揭开大模型幻觉之谜:深入剖析数据偏差与模型局限性如何联手制造假象,并提供代码实例助你洞悉真相
【10月更文挑战第2天】近年来,大规模预训练模型(大模型)在自然语言处理和计算机视觉等领域取得卓越成绩,但也存在“大模型幻觉”现象,即高准确率并不反映真实理解能力。这主要由数据偏差和模型局限性导致。通过平衡数据集和引入正则化技术可部分缓解该问题,但仍需学界和业界共同努力。
113 4
|
8月前
|
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
53 2
|
10月前
|
谷歌重磅发布AlphaFold 3,增强人类发现新药方法!
【5月更文挑战第19天】谷歌DeepMind推出AlphaFold 3,这是人工智能在生物分子结构预测上的新里程碑,有望革新药物发现。相较于前代,AlphaFold 3采用新扩散基架构,提升预测复杂结构的准确性,并在蛋白质-配体、蛋白质-核酸及抗体-抗原相互作用预测上展现优越性能。然而,科学家对其预测误差和可能对现有预测工具的影响持谨慎态度。论文链接:[Nature](https://www.nature.com/articles/s41586-024-07487-w#citeas)
90 9
【软考】能力成熟度模型CMM
【软考】能力成熟度模型CMM
89 0
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
163 0
超越现有指标57.3%,邢波教授、胡志挺教授团队提出统一NLG评价框架
超越现有指标57.3%,邢波教授、胡志挺教授团队提出统一NLG评价框架
143 0