Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发

简介: Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发



 新智元报道  

编辑:Joey

【新智元导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战,无需解码器,效率最高提升250%,一起看看它有多牛。


12月27日,MetaAI 负责视觉和强化学习领域的A



截止27日晚间,这篇推文的阅读量已经达到73.9k。



他表示,仅给出5个演示,MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。


有多优秀呢?


他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%



Lecun也转发了这一研究,表示MoDem的模型架构类似于JEPA,可在表征空间做出预测且无需解码器。



链接小编就放在下面啦,有兴趣的小伙伴可以看看~


论文链接:https://arxiv.org/abs/2212.05698

Github链接:https://github.com/facebookresearch/modem


研究创新和模型架构


样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战,尤其是视觉运动控制。


基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进,从而实现高样本效率。


然而在实践中,基于模型的RL的样本高效学习受到探索挑战的瓶颈,这次研究恰恰解决了这些主要挑战。


首先,MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练,解决了视觉强化学习/控制领域的三个主要挑战:


  • 大样本复杂性(Large sample complexity)
  • 高维状态和动作空间探索(Exploration in high-dimensional state and action space)
  • 同步视觉表征和行为学习(Simultaneous learning of visual representations and behaviors)


这次的模型架构类似于Yann LeCun的JEPA,并且无需解码器。


作者Aravind Rajeswaran表示,相比Dreamer需要像素级预测的解码器,架构繁重,无解码器架构可支持直接插入使用SSL预训练的视觉表示。



此外基于IL+RL,他们提出了一个三阶段算法:


  • BC预训练策略
  • 使用包含演示和探索的种子数据集预训练世界模型,此阶段对于整体稳定性和效率很重要
  • 通过在线互动微调世界模型


结果显示,生成的算法在21个硬视觉运动控制任务中取得了SOTA结果(State-Of-The-Art result),包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。


从数据上来看,MoDem在各项任务中的表现远远优于其他模型,结果比之前的SOTA方法提升了150%到250%。


红色线条为MoDem在各项任务中的表现


在此过程中,他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。


最后,使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。


但8月数据强劲的E2E与冻结的R3M竞争,我们可以通过预训练做得更好。



参考资料:https://nicklashansen.github.io/modemrl/https://twitter.com/aravindr93/status/1607483342580244480

相关文章
|
Web App开发 缓存 Java
idea和谷歌浏览器占用内存过高的处理方法
idea和谷歌浏览器占用内存过高的处理方法
7680 0
idea和谷歌浏览器占用内存过高的处理方法
|
存储 人工智能 监控
《鸿蒙NEXT——为人工智能应用中的用户数据保驾护航》
鸿蒙NEXT通过星盾安全架构,实现数据最小化授权与加密传输,确保用户隐私安全。用户可精准管理应用访问特定数据,避免过度收集;系统级文件加密和TLS等协议保障数据传输安全;隐私安全中心透明化管理应用行为,增强用户掌控权。鸿蒙NEXT为人工智能应用提供全方位数据安全保障,推动AI健康发展。
585 23
|
10月前
你为什么卸载了WPS?WPS 如何卸载干净?卸载不了WPS?看这里
本文介绍了如何彻底卸载电脑软件,包括WPS、Office 2016及Steam游戏等。软件卸载不干净常因残留文件、注册表项和服务项影响系统性能。推荐使用第三方工具如Geek Uninstaller进行深度清理,并提供具体操作步骤和软件下载链接,帮助用户实现高效、彻底卸载。
3582 0
|
机器学习/深度学习 算法 数据处理
SVM的优缺点是什么
SVM的优缺点是什么
1478 9
|
Java Maven 开发者
Maven的依赖作用域和依赖传递
Maven的依赖作用域和依赖传递
1258 0
Maven的依赖作用域和依赖传递
|
Prometheus 监控 Cloud Native
系统监控负载
【10月更文挑战第19天】
|
存储 分布式计算 负载均衡
|
Java Maven Android开发
eclipse更改maven的本地路径和外部仓库地址
eclipse更改maven的本地路径和外部仓库地址
1012 1

热门文章

最新文章