MIT人工智能实验室发力!让机器人告诉你5秒后的世界

简介:

这周MIT人工智能实验室在视觉预测领域取得突破性进展,让机器预测下一秒的世界。

面对握手、拥抱、kiss……,基于经验和直觉,我们总是能在动作完成之前给予对方正确的回应,那机器人可不可以做到呢?答案是可以的!

MIT人工智能实验室发力!让机器人告诉你5秒后的世界

就在这周 ,MIT的计算机科学及人工智能实验室(CSAIL)的研究者们在视觉预测领域取得了一项突破性进展,使得预测交互行为算法的精确性得到了前所未有的提高。

在经过大量视频的情景训练后,他们研究的系统能够预测两个人是否会拥抱,接吻,握手或者击掌。下一阶段,它还能预测视频中5秒钟后会出现的对象。

“人类能够通过自身经验去自动学习行为预测,这也使我们对能否让计算机获得这种常识产生兴趣。”CSAIL的博士生Carl Vondrick说。对于研究团队的成果,Vondrick表示:“我们想要展示的是,仅仅通过观看大量视频,计算机就能获得足够的知识来连续预测其周围的环境。”

MIT人工智能实验室发力!让机器人告诉你5秒后的世界

工作原理

值得一提的是,在这次研究开发中,CSAIL团队并没有采取过往“预测型计算机视觉研究”中运用较为普遍的两种方法,而是自行开发出一种能够预测“视觉表征”的算法,该算法利用了深度学习技术(人工智能的一个分支),即运用“神经网络”系统来教计算机观察大量数据从而自动找出模型。

对于这种算法,Vondrick给出的解释是:“不是说一个像素值为蓝色,下个为红色,等等这样,视觉表征揭示了更大规模的图片的信息,比如某个人脸像素的采集。”

在具体的运作过程中,每一个预测表征的这种算法网络,都会被自动归类为四种行为(拥抱,握手,击掌或者kiss)之一,然后系统会融合所有行为于一体给出最终预测结果。例如,三个网络预测kiss,另一个可能是拥抱。

当被问到为何自行开发算法的时候,Vondrick表示:“未来有着天然的不确定性,所以去开发一个运用这些表征来预测所有可能性的系统带来的自我挑战非常令人兴奋。”

MIT人工智能实验室发力!让机器人告诉你5秒后的世界

成果展现

在运用算法进行了600个小时无标签视频训练后,研究团队拿出一个新的视频来对此系统进行测试。

在视频中的人物离完成四种动作之一还有1秒钟的时候,系统的预测准确度达到了43%,比之前的测试结果高出了7个百分点。

文章一开始也说过,除了预测两个人的动作之外,这个算法还有一个目标——预测接下来5秒出现的对象。现在让我们来看看它所呈现的结果。

在第二项研究中,该算法展示了来自某个视频的框架,并预测5秒后会出现的物体。例如某人打开微波炉看见的是一个咖啡杯。对于该物体的预测结果,算法给出的预测准确性是测试基准的30%,尽管研究者们提醒说平均精确度只有11%。千万不要看不起这数值哦,毕竟根据测试,人类受试者的预测准确性也是能达到71%而已。

MIT人工智能实验室发力!让机器人告诉你5秒后的世界

未来目标

虽然到目前为止,CSAIL团队开发的这种算法在实际运用中的预测还不够精确,但Vondrick还是很乐观的表达了自己的态度:“可能会出现一些重大进展,使我们离视觉预测在现实世界中的利用更近一些。”在他的未来展望中,此种算法的未来版本将能够用于所有事情,从制定更优行动计划的机器人,到发生人员跌落或伤亡时能够通知急救人员的安全相机。


原文发布时间: 2016-06-23 15:25
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关文章
|
5月前
|
人工智能 安全 机器人
无代码革命:10分钟打造企业专属数据库查询AI机器人
随着数字化转型加速,企业对高效智能交互解决方案的需求日益增长。阿里云AppFlow推出的AI助手产品,借助创新网页集成技术,助力企业打造专业数据库查询助手。本文详细介绍通过三步流程将AI助手转化为数据库交互工具的核心优势与操作指南,包括全场景适配、智能渲染引擎及零代码配置等三大技术突破。同时提供Web集成与企业微信集成方案,帮助企业实现便捷部署与安全管理,提升内外部用户体验。
606 12
无代码革命:10分钟打造企业专属数据库查询AI机器人
|
28天前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
6月前
|
人工智能 自然语言处理 安全
AI尝鲜:dify搭建AI对话机器人
本实验介绍如何在Dify中设置知识库并创建智能应用作为对话机器人,实现AI对话功能。例如查询电动汽车电池过充电保护试验的环境温度条件。实验步骤包括:一、安装Dify并通过计算巢部署;二、设置模型供应商,选择通义千问并配置API KEY;三、创建知识库,导入文件并设置文本分段与清洗规则;四、创建智能体,添加知识库和模型;五、与智能体对话,测试查询功能。通过这些步骤,您可以构建一个基于专有知识库的AI对话系统。
|
2月前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
2月前
|
机器学习/深度学习 人工智能 机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
|
2月前
|
人工智能 Java 机器人
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
Spring AI Alibaba集成Ollama,基于Java构建本地大模型应用,支持流式对话、knife4j接口可视化,实现高隐私、免API密钥的离线AI服务。
1704 1
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
|
7月前
|
人工智能 搜索推荐
「社会实验室」成真!SocioVerse:复旦联合小红书开源社会模拟世界模型,用AI预演群体行为
SocioVerse是由复旦大学联合小红书等机构开源的社会模拟框架,基于大语言模型和千万级真实用户数据构建,能精准模拟群体行为并预测社会事件演化趋势。
517 2
「社会实验室」成真!SocioVerse:复旦联合小红书开源社会模拟世界模型,用AI预演群体行为
|
4月前
|
人工智能 数据可视化 安全
NekroAgent - 一体式跨平台多人AI智能聊天机器人框架
NekroAgent 是一个基于 AI 的智能聊天机器人框架,起源于 QQBot 插件,现发展为独立、功能强大的平台。它支持多平台适配、代码生成与安全沙盒执行、可视化管理界面,并具备高度扩展性与多模态交互能力,适用于 Linux、Windows、MacOS 系统部署。
201 0
NekroAgent - 一体式跨平台多人AI智能聊天机器人框架
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3模型升级、字节GR-3机器人、TRAE SOLO、JoyAgent OxyGent京东智能体框架、智谱Z.ai炫酷PPT制作
AI Compass前沿速览:Qwen3模型升级、字节GR-3机器人、TRAE SOLO、JoyAgent OxyGent京东智能体框架、智谱Z.ai炫酷PPT制作
AI Compass前沿速览:Qwen3模型升级、字节GR-3机器人、TRAE SOLO、JoyAgent OxyGent京东智能体框架、智谱Z.ai炫酷PPT制作
|
4月前
|
机器学习/深度学习 人工智能 机器人
Meta AI Research:虚拟/可穿戴/机器人三位一体的AI进化路径
本文阐述了我们对具身AI代理的研究——这些代理以视觉、虚拟或物理形式存在,使其能够与用户及环境互动。这些代理包括虚拟化身、可穿戴设备和机器人,旨在感知、学习并在其周围环境中采取行动。与非具身代理相比,这种特性使它们更接近人类的学习与环境交互方式。我们认为,世界模型的构建是具身AI代理推理与规划的核心,这使代理能够理解并预测环境、解析用户意图及社会背景,从而增强其自主完成复杂任务的能力。世界建模涵盖多模态感知的整合、通过推理进行行动规划与控制,以及记忆机制,以形成对物理世界的全面认知。除物理世界外,我们还提出需学习用户的心理世界模型,以优化人机协作。
293 3

热门文章

最新文章