理解物体之间潜在关系,MIT新研究让AI像人一样「看」世界

简介: 理解物体之间潜在关系,MIT新研究让AI像人一样「看」世界

人们观察场景通常是观察场景中的物体和物体之间的关系。比如我们经常这样描述一个场景:桌面上有一台笔记本电脑,笔记本电脑的右边是一个手机。

但这种观察方式对深度学习模型来说很难实现,因为这些模型不了解每个对象之间的关系。如果不了解这些关系,功能型机器人就很难完成它们的任务,例如一个厨房机器人将很难执行这样的命令:「拿起炒锅左侧的水果刀并将其放在砧板上」。

为了解决这个问题,在一篇 NeurIPS 2021 Spotlight 论文中,来自 MIT 的研究者开发了一种可以理解场景中对象之间潜在关系的模型。该模型一次表征一种个体关系,然后结合这些表征来描述整个场景,使得模型能够从文本描述中生成更准确的图像。


论文地址:https://arxiv.org/abs/2111.09297

现实生活中人们并不是靠坐标定位物体,而是依赖于物体之间的相对位置关系。这项研究的成果将应用于工业机器人必须执行复杂的多步骤操作任务的情况,例如在仓库中堆叠物品、组装电器。此外,该研究还有助于让机器能够像人类一样从环境中学习并与之交互。

每次表征一个关系

该研究提出使用 Energy-Based 模型将个体关系表征和分解为非规一化密度。关系场景描述被表征为关系中的独立概率分布,每个个体关系指定一个单独的图像上的概率分布。这样的组合方法可以建模多个关系之间的交互。


该研究表明所提框架能够可靠地捕获和生成带有多个组合关系的图像,并且能够推断潜在的关系场景描述,并且能够稳健地理解语义上等效的关系场景描述。

在泛化方面,该方法可以推广到以前未见过的关系描述上,包括对象和描述来自训练期间未见过的数据集。这种泛化对于通用人工智能系统适应周围世界的无限变化至关重要。

以往的一些系统可能会从整体上获取所有关系,并从描述中一次性生成图像。然而这些模型不能真正适应添加更多关系的图像。相比之下,该研究的方法将单独的、较小的模型组合在一起,能够对更多的关系进行建模并适应新的关系组合。

此外,该系统还可以反向工作——给定一张图像,它可以找到与场景中对象之间的关系相匹配的文本描述。该模型还可通过重新排列场景中的对象来编辑图像,使它们与新的描述相匹配。


研究人员将他们的模型与几种类似深度学习方法进行了比较,实验表明在每种情况下,他们的模型都优于基线。


他们还邀请人们评估生成的图像是否与原始场景描述匹配。在描述包含三个关系的示例中,91% 的参与者认为该模型的性能比以往模型更好。

这些早期结果令人鼓舞,研究人员希望未来该模型能够在更复杂的真实世界图像上运行,这需要解决物体遮挡、场景混乱等问题。

他们也期待模型最终能够整合到机器人系统中,使机器人能够推断现实世界中的物体关系,更好地完成交互任务。

感兴趣的读者可以阅读论文原文了解更多研究细节。

相关文章
|
1月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
32 1
|
12天前
|
人工智能 知识图谱
成熟的AI要学会自己搞研究!MIT推出科研特工
MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
35 12
|
11天前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
1月前
|
人工智能 自然语言处理
召唤100多位学者打分,斯坦福新研究:AI科学家创新确实强
【10月更文挑战第6天】斯坦福大学最新研究评估了大型语言模型(LLMs)在生成新颖研究想法方面的能力,通过100多位NLP专家盲评LLMs与人类研究人员提出的想法。结果显示,LLMs在新颖性方面超越人类(p < 0.05),但在可行性上略逊一筹。研究揭示了LLMs作为科研工具的潜力与挑战,并提出了进一步验证其实际效果的设计。论文详见:https://arxiv.org/abs/2409.04109。
39 6
|
1月前
|
人工智能 自然语言处理 机器人
MIT新研究揭秘AI洗脑术!AI聊天诱导人类编造记忆,真假难辨
麻省理工学院的一项新研究《基于大型语言模型的对话式AI在证人访谈中加剧虚假记忆》显示,使用生成式聊天机器人进行犯罪证人访谈会显著增加参与者的虚假记忆,且影响持久。研究设置了对照组、问卷访谈、预设脚本及生成式聊天机器人四种条件,结果显示生成式聊天机器人诱导的虚假记忆数量远超其他方法。尽管AI技术在效率和准确性方面潜力巨大,但在敏感领域需谨慎应用,并需进一步评估风险,制定伦理准则和监管措施。论文详细内容见[这里](https://arxiv.org/abs/2408.04681)。
43 2
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
31 1
|
13天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
109 48
|
9天前
|
机器学习/深度学习 人工智能 算法
AI在医疗领域的应用与挑战
本文探讨了人工智能(AI)在医疗领域的应用,包括其在疾病诊断、治疗方案制定、患者管理等方面的优势和潜力。同时,也分析了AI在医疗领域面临的挑战,如数据隐私、伦理问题以及技术局限性等。通过对这些内容的深入分析,旨在为读者提供一个全面了解AI在医疗领域现状和未来发展的视角。
40 10
|
9天前
|
机器学习/深度学习 人工智能 监控
探索AI在医疗领域的应用与挑战
本文深入探讨了人工智能(AI)在医疗领域中的应用现状和面临的挑战。通过分析AI技术如何助力疾病诊断、治疗方案优化、患者管理等方面的创新实践,揭示了AI技术为医疗行业带来的变革潜力。同时,文章也指出了数据隐私、算法透明度、跨学科合作等关键问题,并对未来的发展趋势进行了展望。