给AI一个洗衣机,TA会做点啥?斯坦福+FB研究了972种形状,只为教机器人开门

简介: 给AI一个洗衣机,TA会做点啥?斯坦福+FB研究了972种形状,只为教机器人开门

让你打开一个滚筒洗衣机的门,你会怎么做?

这是人类在日常生活中与周围物体互动的简单场景之一,对人类来说,拉开一个洗衣机门是自然而然的行为。

人类能毫不费力地理解对每个物体可以采取什么举动,能够理解力的相互作用可能发生在哪里,以及我们需要做一个什么动作才能达到我们的目的。

给AI一个洗衣机呢?它会知道拉这个动作可以将这个洗衣机打开吗?

斯坦福和Facebook就专门成立了一个团队研究这个问题,在他们最近的一篇论文中,他们提取了对物体中可活动的部件进行推拉等行为的相关信息,并使用这些信息来训练一个人工智能模型。

他们开发的这个叫Where2Act的模型,通过对6种原始交互方法,涵盖972种形状,超过15种常见的室内物体类别进行了学习后,成功地学会了预测对新对象的可能有效的动作,甚至对没有学习过的物体也能准确判断。

论文链接:
https://arxiv.org/pdf/2101.02692.pdf

每个像素都要学习

要让AI学会和现实交互,首先要让AI理解什么是交互。

研究人员认为,与物体的长期交互就是短期“原子(点)”交互的序列,比如推和拉,就是在一个点上进行作用的序列。

这就简化了AI的工作范围,给定一个物体,AI可以先假设进行一个可能合理短期互动,这种交互可以被进一步分解为“在哪里”交互和“如何”交互。

例如,AI要判断拉动柜子上的哪个把手,以及应该平行于把手拉动还是垂直于把手拉动等。

确定“在哪里”交互就是要找到那个短期交互的“原子(点)”。

为此,研究人员开发了一个模型,当给定一个物体的深度或彩色图像时,对于每个像素,模型都通过无数次的尝试来学习,将达到效果的标记为成功。

"我们的方法允许AI通过与各种对象进行交互,并记录其操作的结果来学习这些结果——将那些导致理想状态变化的动作标记为成功,"研究人员表示。

通过学习,最后模型就可以对每个像素给出一个效果评分,以及动作建议和成功的可能性。

数据集也是模拟生成

尽管AI要学习的都是人类常见的动作,但正是因为太常见、太普通,类似的视频数据集很少。

为此,研究人员使用SAPIEN创建了一个模拟交互式环境,一个随机3D关节对象被选择并放置在场景的中心,而机器人手爪可以通过在指定位置和物体进行交互。

通过不断的交互,从而让机器人学习到什么如何交互才能产生成功的效果。

研究人员还采用混合数据采样策略,首先对大量离线随机交互轨迹进行采样以引导学习,然后基于网络预测自适应地对在线交互数据点进行采样以提高学习效率。

最后,训练好的AI终于学会了与现实世界交互,比如一个简单的开门和关门,在AI的理解中,就是:
开门=在高曲率区域(如门得边沿或者手柄)施加一个拉力大概率可以打开门
关门=在可推动的门的所有平面像素点施加一个拉力都可以关上门

费尽力气,只是开了个门?

就像让AI识别猫和狗一样,往往人类觉得轻而易举的事,AI反而觉得很难。

也正如图像识别一样,AI也是依靠日益提升的计算力通过对每个像素进行分析开始慢慢学会了和现实交互。

包括此前加州大学伯克利分校的研究人员开发的高效机器人操作框架(FERM),也是通过"基于像素"的强化学习来让机械手臂学会如何和现实世界交互。

研究人员表示,只通过10次演示,相当于15到50分钟的实际训练时间,一只机械臂就可以学会接触、挑选、移动和拉大型物体,或者翻转开关。

尽管现在AI在和现实交互的理解方面还只能做到移动物体、开关门等简单操作,但是这至少是AI向现实世界迈进的第一步。

未来是否能出现AGI,正是要看这些基础的研究能慢慢做到什么程度。

相关报道:
https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/
https://venturebeat.com/2021/01/08/stanford-researchers-propose-ai-that-figures-out-how-to-use-real-world-objects/

相关文章
|
1月前
|
传感器 算法 安全
【四旋翼飞行器】【模拟悬链机器人的动态】设计和控制由两个四旋翼飞行器推动的缆绳研究(Matlab代码实现)
【四旋翼飞行器】【模拟悬链机器人的动态】设计和控制由两个四旋翼飞行器推动的缆绳研究(Matlab代码实现)
|
1月前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
1月前
|
机器学习/深度学习 人工智能 机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
|
1月前
|
人工智能 Java 机器人
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
Spring AI Alibaba集成Ollama,基于Java构建本地大模型应用,支持流式对话、knife4j接口可视化,实现高隐私、免API密钥的离线AI服务。
814 1
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
|
1月前
|
存储 人工智能 监控
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作
如今的量化交易已远超传统技术指标,迈向多智能体协作的新时代。本文介绍了一个基于 **LangGraph** 构建的多智能体交易系统,模拟真实投资机构的运作流程:数据分析师收集市场情报,研究员展开多空辩论,交易员制定策略,风险团队多角度评估,最终由投资组合经理做出决策。系统具备记忆学习能力,通过每次交易积累经验,持续优化决策质量。
332 8
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作
|
1月前
|
算法 机器人 Serverless
【机器人路径规划】基于6种算法(黑翅鸢优化算法BKA、SSA、MSA、RTH、TROA、COA)求解机器人路径规划研究(Matlab代码实现)
【机器人路径规划】基于6种算法(黑翅鸢优化算法BKA、SSA、MSA、RTH、TROA、COA)求解机器人路径规划研究(Matlab代码实现)
255 2
|
1月前
|
机器学习/深度学习 算法 机器人
【机器人路径规划】基于A*算法的机器人路径规划研究(Python代码实现)
【机器人路径规划】基于A*算法的机器人路径规划研究(Python代码实现)
188 4
|
23天前
|
机器学习/深度学习 存储 算法
【水下机器人建模】基于QLearning自适应强化学习PID控制器在AUV中的应用研究(Matlab代码实现)
【水下机器人建模】基于QLearning自适应强化学习PID控制器在AUV中的应用研究(Matlab代码实现)
202 0
|
1月前
|
算法 安全 机器人
【路径规划】基于遗传算法结合粒子群算法求解机器人在复杂不同类型下的路径规划研究(Matlab代码实现)
【路径规划】基于遗传算法结合粒子群算法求解机器人在复杂不同类型下的路径规划研究(Matlab代码实现)
|
1月前
|
存储 人工智能 机器人
科技云报到:西湖大学、智元机器人都选它,存储成为AI下一个风口
科技云报到:西湖大学、智元机器人都选它,存储成为AI下一个风口

热门文章

最新文章