Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发



 新智元报道  

编辑:Joey

【新智元导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战,无需解码器,效率最高提升250%,一起看看它有多牛。


12月27日,MetaAI 负责视觉和强化学习领域的A



截止27日晚间,这篇推文的阅读量已经达到73.9k。



他表示,仅给出5个演示,MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。


有多优秀呢?


他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%



Lecun也转发了这一研究,表示MoDem的模型架构类似于JEPA,可在表征空间做出预测且无需解码器。



链接小编就放在下面啦,有兴趣的小伙伴可以看看~


论文链接:https://arxiv.org/abs/2212.05698

Github链接:https://github.com/facebookresearch/modem


研究创新和模型架构


样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战,尤其是视觉运动控制。


基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进,从而实现高样本效率。


然而在实践中,基于模型的RL的样本高效学习受到探索挑战的瓶颈,这次研究恰恰解决了这些主要挑战。


首先,MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练,解决了视觉强化学习/控制领域的三个主要挑战:


  • 大样本复杂性(Large sample complexity)
  • 高维状态和动作空间探索(Exploration in high-dimensional state and action space)
  • 同步视觉表征和行为学习(Simultaneous learning of visual representations and behaviors)


这次的模型架构类似于Yann LeCun的JEPA,并且无需解码器。


作者Aravind Rajeswaran表示,相比Dreamer需要像素级预测的解码器,架构繁重,无解码器架构可支持直接插入使用SSL预训练的视觉表示。



此外基于IL+RL,他们提出了一个三阶段算法:


  • BC预训练策略
  • 使用包含演示和探索的种子数据集预训练世界模型,此阶段对于整体稳定性和效率很重要
  • 通过在线互动微调世界模型


结果显示,生成的算法在21个硬视觉运动控制任务中取得了SOTA结果(State-Of-The-Art result),包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。


从数据上来看,MoDem在各项任务中的表现远远优于其他模型,结果比之前的SOTA方法提升了150%到250%。


红色线条为MoDem在各项任务中的表现


在此过程中,他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。


最后,使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。


但8月数据强劲的E2E与冻结的R3M竞争,我们可以通过预训练做得更好。



参考资料:https://nicklashansen.github.io/modemrl/https://twitter.com/aravindr93/status/1607483342580244480

相关文章
|
8天前
|
数据采集 算法 vr&ar
基于国产化芯片的神经腕带技术方案,实现META神经腕带效果,创新交互方式
唯理科技发布了一款基于自研WLS128芯片的神经腕带产品,能够通过采集前臂肌肉神经电与肢体运动信息实现自然手势识别。该产品具备微弱肌电信号采集、多通道SEMG数据采集、低功耗设计、高采样率、专业算法支持等特性,支持多种数据格式导出及第三方数据接口,应用场景广泛。唯理科技是国内少数拥有自研芯片的脑电脑机接口技术厂商,致力于为客户提供一体化的软硬件解决方案。
|
1月前
|
人工智能 人机交互 语音技术
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni
【10月更文挑战第2天】国内研究机构提出的Mini-Omni是一个端到端的音频对话模型,实现了实时语音交互,标志着全球首个开源的端到端语音对话模型。通过文本引导的语音生成方法和批处理并行策略,Mini-Omni在保持语言能力的同时,实现了流畅的语音输出。研究团队还引入了VoiceAssistant-400K数据集进行微调,提升了模型性能。尽管如此,Mini_Omni在语音质量、计算资源需求及伦理监管方面仍面临挑战。论文详见:[链接]。
86 3
|
2月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
71 7
|
2月前
|
自然语言处理
统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
【9月更文挑战第22天】该研究由Meta、Waymo及南加大团队合作完成,提出了一种名为Transfusion的新多模态模型,巧妙融合了语言模型与扩散模型的优点,实现了单一模型下的文本与图像生成和理解。Transfusion通过结合下一个token预测与扩散模型,在混合模态序列上训练单个Transformer,能够无缝处理离散和连续数据。实验表明,该模型在图像生成、文本生成以及图像-文本生成任务上表现出色,超越了DALL-E 2和SDXL等模型。不过,Transfusion仍面临计算成本高和图像理解能力有限等挑战,并且尚未涵盖音频和视频等其他模态。
52 2
|
4月前
|
存储 人工智能 物联网
端侧设备AI代理优化框架问世,领域内准确率可达97%
【7月更文挑战第30天】新框架Octo-planner提升端侧AI代理效率与准确性至97%。此框架由Nexa AI等机构合作研发,采用"Planner-Action"模式,将AI代理任务划分为规划与执行两部分,利用"Octopus"及"Phi-3 Mini"模型分别处理。通过fine-tuning技术及GPT-4辅助,实现在资源受限设备上的高性能。更多细节见论文: https://arxiv.org/pdf/2406.18082
50 1
|
6月前
|
人工智能 自动驾驶 机器人
Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型
【5月更文挑战第23天】Sora模型是通用世界模拟器的里程碑,展示出在物理法则理解及多领域应用的潜力,尤其在视频生成和自动驾驶中。然而,它仍面临预测能力、模拟复杂物理现象、计算效率及评估体系的挑战。未来研究将聚焦3D模拟、智能体现和安全问题,旨在提升机器对物理世界的理解和适应性,同时应对信息失真、偏见和隐私问题。[论文链接](https://arxiv.org/abs/2405.03520)
147 2
|
6月前
|
数据采集 人工智能 编解码
二次元专用超分AI模型APISR:在线可用,入选CVPR
【4月更文挑战第15天】APISR是一款由密歇根大学、耶鲁大学和浙江大学联合研发的AI模型,专攻动漫风格的超分辨率问题。在CVPR会议上发表的这项成果,通过理解动漫制作流程,针对性地收集和处理训练数据,提升了动漫图像的清晰度和视觉效果。APISR引入预测导向的压缩模块和平衡的双感知损失函数,有效恢复手绘线条并减少颜色伪影。此外,模型关注图像复杂性,优化训练数据质量和学习效率。尽管面临处理复杂场景和颜色偏差的挑战,APISR为动漫图像处理开辟了新方向。
148 1
二次元专用超分AI模型APISR:在线可用,入选CVPR
|
人工智能 自然语言处理 计算机视觉
12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统
12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统
|
人工智能 自然语言处理 语音技术
语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务
语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务
252 0
|
人工智能 边缘计算 运维
IEEE EDGE 2020论文:Astraea — 以优雅的方式在边缘部署AI服务
近日,阿里云边缘计算团队博士后付哲的论文《Astraea: Deploy AI Services at the Edge in Elegant Ways》入选2020年IEEE边缘计算国际会议(IEEE International Conference on Edge Computing),并在大会上进行了宣讲。他和他的团队如何看待以上问题,本文将为您解答。
10550 3
IEEE EDGE 2020论文:Astraea — 以优雅的方式在边缘部署AI服务

热门文章

最新文章

下一篇
无影云桌面