WHALE来了,南大周志华团队做出更强泛化的世界模型

简介: 南大周志华团队提出WHALE框架,应对世界模型在具身环境中决策的泛化与不确定性估计挑战。WHALE包含行为条件和回溯-展开两项关键技术,提升模型适应不同行为模式及预测准确性。基于此框架的Whale-ST和Whale-X模型在模拟和真实机器人任务中表现出色,验证了其在视觉控制任务中的长时预测和泛化能力。论文:https://arxiv.org/pdf/2411.05619

世界模型在具身环境中的决策中扮演着关键角色,它能够通过模拟环境动态,实现在现实世界中成本高昂的探索。然而,世界模型的泛化能力,即在未见过的数据上进行准确预测的能力,以及对模拟经验的不确定性估计,是两个主要挑战。

为了应对这些挑战,南大周志华团队提出了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning)框架。WHALE由两个关键技术组成:行为条件和回溯-展开。行为条件通过在模型中嵌入行为信息,使模型能够主动识别和适应不同行为模式,从而减少泛化误差。回溯-展开则是一种高效的不确定性估计技术,它避免了对多个模型进行计算昂贵的集成,而是通过回溯动作和展开过程来估计不确定性。

为了实现WHALE框架,研究团队提出了Whale-ST,一个基于空间-时间变换器(ST-transformer)的可扩展世界模型。Whale-ST的设计目标是实现对真实世界视觉控制任务的忠实长时预测。为了验证Whale-ST的有效性,研究团队在模拟的Meta-World基准和物理机器人平台上进行了广泛的实验,涵盖了各种基于像素的操作任务。

实验结果表明,Whale-ST在价值估计准确性和视频生成保真度方面都优于现有的世界模型学习方法。此外,基于回溯-展开技术的Whale-ST能够有效地捕捉模型预测误差,并增强离线策略优化使用想象经验。

为了进一步验证WHALE框架在真实世界任务中的泛化能力,研究团队提出了Whale-X,一个基于970k个真实世界机器人演示的414M参数世界模型。Whale-X被设计为评估真实世界行为的基础具身世界模型。

通过在完全未见过的环境中和机器人上进行微调,Whale-X展示了在视觉、运动和任务层面上的强大泛化能力。此外,通过扩大预训练数据集或模型参数,Whale-X在预训练和微调阶段都表现出了令人印象深刻的可扩展性。

WHALE框架的提出为世界模型的泛化能力和不确定性估计提供了新的解决方案。行为条件和回溯-展开技术的有效性在模拟和真实世界任务中的实验结果中得到了验证。Whale-ST和Whale-X的成功表明,WHALE框架在提升世界模型的决策支持能力方面具有巨大潜力。

然而,WHALE框架也存在一些限制。例如,真实世界机器人数据的多样性不足,通常由狭窄范围的策略(如近最优策略)收集,这给世界模型的泛化带来了挑战。此外,视觉输入的奖励模型质量对准确的价值估计起着关键作用,这仍然是一个未解决的挑战。

论文地址:https://arxiv.org/pdf/2411.05619

目录
相关文章
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
578 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
数据可视化
ShapeNet数据集及dataset代码分析
ShapeNet数据集及dataset代码分析
1784 0
|
4月前
|
监控 算法 测试技术
大模型推理服务优化:动态批处理与连续批处理技术
本文系统阐述大语言模型推理服务中的关键技术——动态批处理与连续批处理。通过分析传统静态批处理的局限性,深入解析动态批处理的请求调度算法、内存管理策略,以及连续批处理的中断恢复机制。文章包含完整的服务架构设计、核心算法实现和性能基准测试,为构建高性能大模型推理服务提供全面解决方案。
595 3
|
4月前
|
网络协议 API 网络安全
VMware NSX 9.0.1.0 发布 - 下一代网络安全虚拟化平台
VMware NSX 9.0.1.0 发布 - 下一代网络安全虚拟化平台
781 3
VMware NSX 9.0.1.0 发布 - 下一代网络安全虚拟化平台
|
人工智能 自然语言处理 数据库
基于RAG和LLM的水利知识问答系统研究
随着全球水资源紧张加剧,我国面临严峻的水资源管理挑战。《十四五规划》提出构建智慧水利体系,通过科技手段提升水情测报和智能调度能力。基于大语言模型(LLM)的水利智能问答系统,利用自然语言处理技术,提供高效、准确的水利信息查询和决策支持,助力水资源管理智能化。该系统通过RAG技术和Agent功能,实现了对水利知识的深度理解和精准回答,适用于水利知识科普、水务治理建议及灾害应急决策等多个场景,推动了水利行业的信息化和智能化发展。
|
7月前
|
人工智能 弹性计算 监控
【云故事探索】NO.16:阿里云弹性计算加速精准学 AI 教育普惠落地
全球首个K12教育超级智能体“寒雪老师”依托阿里云弹性计算,实现“超拟人”教学与教育普惠。智能精准学通过AI技术提供个性化学习方案,借助学习机等产品实现语音交互、答疑解惑,助力每个孩子拥有终身学习能力。面对实时交互与流量潮汐挑战,阿里云ECS与GPU算力保障低延迟、高并发服务稳定运行,实现30秒内弹性扩容,确保业务连续性。从实验室到千万课堂,算力支撑寒雪老师从城市到山区,推动AI教育公平发展。
|
机器学习/深度学习 安全 算法
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
2397 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
|
机器学习/深度学习 人工智能 自然语言处理
Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象
Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎,能够模拟世界万物,具有高度的物理准确性和快速的模拟速度,适用于机器人仿真、游戏开发、电影特效制作等多个领域。
699 21
Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象
|
机器学习/深度学习 TensorFlow 算法框架/工具
Whale 基于 Tensorflow 深度学习分布式训练框架|学习笔记
快速学习 Whale 基于 Tensorflow 深度学习分布式训练框架。
1018 0
Whale 基于 Tensorflow 深度学习分布式训练框架|学习笔记
|
机器学习/深度学习 关系型数据库 PyTorch
DeepSpeed-MoE:训练更大及更复杂的混合专家网络
这是微软发布在**2022 ICML**的论文,MoE可以降低训练成本,但是快速的MoE模型推理仍然是一个未解决的问题。所以论文提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE:它包括新颖的MoE架构设计和模型压缩技术,可将MoE模型大小减少3.7倍;通过高度优化的推理系统,减少了7.3倍的延迟和成本;与同等质量的密集模型相比,推理速度提高4.5倍,成本降低9倍。
926 0