给AI一个洗衣机,TA会做点啥?斯坦福+FB研究了972种形状,只为教机器人开门

简介: 给AI一个洗衣机,TA会做点啥?斯坦福+FB研究了972种形状,只为教机器人开门

让你打开一个滚筒洗衣机的门,你会怎么做?

这是人类在日常生活中与周围物体互动的简单场景之一,对人类来说,拉开一个洗衣机门是自然而然的行为。

人类能毫不费力地理解对每个物体可以采取什么举动,能够理解力的相互作用可能发生在哪里,以及我们需要做一个什么动作才能达到我们的目的。

给AI一个洗衣机呢?它会知道拉这个动作可以将这个洗衣机打开吗?

斯坦福和Facebook就专门成立了一个团队研究这个问题,在他们最近的一篇论文中,他们提取了对物体中可活动的部件进行推拉等行为的相关信息,并使用这些信息来训练一个人工智能模型。

他们开发的这个叫Where2Act的模型,通过对6种原始交互方法,涵盖972种形状,超过15种常见的室内物体类别进行了学习后,成功地学会了预测对新对象的可能有效的动作,甚至对没有学习过的物体也能准确判断。

论文链接:
https://arxiv.org/pdf/2101.02692.pdf

每个像素都要学习

要让AI学会和现实交互,首先要让AI理解什么是交互。

研究人员认为,与物体的长期交互就是短期“原子(点)”交互的序列,比如推和拉,就是在一个点上进行作用的序列。

这就简化了AI的工作范围,给定一个物体,AI可以先假设进行一个可能合理短期互动,这种交互可以被进一步分解为“在哪里”交互和“如何”交互。

例如,AI要判断拉动柜子上的哪个把手,以及应该平行于把手拉动还是垂直于把手拉动等。

确定“在哪里”交互就是要找到那个短期交互的“原子(点)”。

为此,研究人员开发了一个模型,当给定一个物体的深度或彩色图像时,对于每个像素,模型都通过无数次的尝试来学习,将达到效果的标记为成功。

"我们的方法允许AI通过与各种对象进行交互,并记录其操作的结果来学习这些结果——将那些导致理想状态变化的动作标记为成功,"研究人员表示。

通过学习,最后模型就可以对每个像素给出一个效果评分,以及动作建议和成功的可能性。

数据集也是模拟生成

尽管AI要学习的都是人类常见的动作,但正是因为太常见、太普通,类似的视频数据集很少。

为此,研究人员使用SAPIEN创建了一个模拟交互式环境,一个随机3D关节对象被选择并放置在场景的中心,而机器人手爪可以通过在指定位置和物体进行交互。

通过不断的交互,从而让机器人学习到什么如何交互才能产生成功的效果。

研究人员还采用混合数据采样策略,首先对大量离线随机交互轨迹进行采样以引导学习,然后基于网络预测自适应地对在线交互数据点进行采样以提高学习效率。

最后,训练好的AI终于学会了与现实世界交互,比如一个简单的开门和关门,在AI的理解中,就是:
开门=在高曲率区域(如门得边沿或者手柄)施加一个拉力大概率可以打开门
关门=在可推动的门的所有平面像素点施加一个拉力都可以关上门

费尽力气,只是开了个门?

就像让AI识别猫和狗一样,往往人类觉得轻而易举的事,AI反而觉得很难。

也正如图像识别一样,AI也是依靠日益提升的计算力通过对每个像素进行分析开始慢慢学会了和现实交互。

包括此前加州大学伯克利分校的研究人员开发的高效机器人操作框架(FERM),也是通过"基于像素"的强化学习来让机械手臂学会如何和现实世界交互。

研究人员表示,只通过10次演示,相当于15到50分钟的实际训练时间,一只机械臂就可以学会接触、挑选、移动和拉大型物体,或者翻转开关。

尽管现在AI在和现实交互的理解方面还只能做到移动物体、开关门等简单操作,但是这至少是AI向现实世界迈进的第一步。

未来是否能出现AGI,正是要看这些基础的研究能慢慢做到什么程度。

相关报道:
https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/
https://venturebeat.com/2021/01/08/stanford-researchers-propose-ai-that-figures-out-how-to-use-real-world-objects/

相关文章
|
2月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
38 1
|
22天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
181 64
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
44 25
|
24天前
|
人工智能 开发者
人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
论文《AI对齐中的超越偏好》挑战了偏好主义AI对齐方法,指出偏好无法全面代表人类价值观,存在冲突和变化,并受社会影响。文章提出基于角色的对齐方案,强调AI应与其社会角色相关的规范标准一致,而非仅关注个人偏好,旨在实现更稳定、适用性更广且更符合社会利益的AI对齐。论文链接:https://arxiv.org/pdf/2408.16984
33 2
|
26天前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
28 2
|
5天前
|
人工智能 自然语言处理 物联网
AI Safeguard联合 CMU,斯坦福提出端侧多模态小模型
随着人工智能的快速发展,多模态大模型(MLLMs)在计算机视觉、自然语言处理和多模态任务中扮演着重要角色。
|
28天前
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
201 1
|
1月前
|
人工智能 知识图谱
成熟的AI要学会自己搞研究!MIT推出科研特工
MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
43 12
|
1月前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
2024.10|AI/大模型在机器人/自动驾驶/智能驾舱领域的最新应用和深度洞察
本文介绍了AI和大模型在机器人、自动驾驶和智能座舱领域的最新应用和技术进展。涵盖多模态大语言模型在机器人控制中的应用、移动机器人(AMRs)的规模化部署、协作机器人的智能与安全性提升、AR/VR技术在机器人培训中的应用、数字孪生技术的优化作用、Rust语言在机器人编程中的崛起,以及大模型在自动驾驶中的核心地位、端到端自动驾驶解决方案、全球自动驾驶的前沿进展、智能座舱的核心技术演变和未来发展趋势。
157 2

热门文章

最新文章

下一篇
DataWorks