看YouTube学做广播体操?机器人即将掌握人类所有动作 | 一周AI最火论文

简介: 机器人世界正在迅速地发展,很快我们就会目睹机器人掌握更多之前只有人类能够掌握的技能。在这篇论文中,研究人员提出了一个激动人心的课题——指导机器人复制视频中的动作。他们解决了机器人对协同动作计划学习的挑战。

能够“观看和学习”YouTube视频的机器人

机器人世界正在迅速地发展,很快我们就会目睹机器人掌握更多之前只有人类能够掌握的技能。在这篇论文中,研究人员提出了一个激动人心的课题——指导机器人复制视频中的动作。他们解决了机器人对协同动作计划学习的挑战。

研究的目标是让机器人在互联网上“观看”视频、提取视频中的动作序列并将其转换为可执行的计划,使其既可以自主执行、也可以作为机器人团队和人机团队中的一部分来执行。

image.png

为了演示该框架的适用性,研究人员输入了一个YouTube视频,该视频演示了一个完整的协作烹饪任务。该框架假定视频中的目标已被标记,并使用一个最新的目标检测模型为每个目标限定一个边界。

技术世界正处于一个令人兴奋的发展阶段,尤其是在机器人技术等机器学习技术不断进步的当下。更令人激动的是,互联网中包含的大量视频内容都可以被机器人用以执行人机团队和机器人团队中的协同任务。

在本文演示中,两个机械臂重现了一个简单的烹饪视频。这是朝着机器人通过在线观看视频来执行一系列操作计划的目标,迈出的重要一步。本文方法的局限性来自最新的目标检测技术需要满足的前提假设等。

原文:

https://arxiv.org/abs/1911.10686

用于六维姿态估计的多视图匹配网络

本文中,研究人员提出了一种新技术,用于估计单个RGB图像中的六维姿态。

该方法结合了目标检测和分割方法,通过将输入图像与渲染图像进行匹配来估计、优化和跟踪目标的姿态。

首先,研究人员使用Mask R-CNN来检测和分割输入图像中感兴趣的目标;然后,使用多视图匹配模型来估计该目标的6D姿态;最后,使用单视图匹配模型完善姿态估计。该方法获得的准确度可与常规RGB姿态估计的最新方法(如PoseCNN + DeepIM)得到的准确度相媲美。

image.png

本文为如何扩展独特的模型用于估计、改进和跟踪目标的姿态,提供了新的研究思路。

本项研究提出的方法展示了网络如何自动协助优化和跟踪过程。该方法扩展了一个用于姿态估计、改进和跟踪的姿态优化网络DeepIM,而无需使用外部的初始姿态估计方法。

因此,初始姿态估计网络(如PoseCNN)可能会被可用度高的目标检测网络所取代,而该目标检测网络已通过大型训练数据集进行了训练。

原文:

https://arxiv.org/abs/1911.12330

使用图像分析和检测社会关系

本文中,两名研究人员提出了一种可用于图像集中的面部图表示的方法。该方法根据面部表情、亲近程度、同时出现和头部朝向来分析在一个社交活动中有多少人被联系起来。为了实现这一目标,研究人员定义了集合中每对目标之间的“连通性”测量值,该值代表了他们之间的关联程度。

在下图中,节点表示集合中的主题,边缘表示节点之间的连接。节点越近,主题之间的联系就越紧密。

image.png

研究人员还开发了图形用户界面,用户可以在界面中单击节点或边缘来展示存在相连主题的图像集。

文中通过分析婚礼庆典、情景喜剧视频、排球比赛以及从Twitter提取的带有标签的图像提供了较为准确的结果。

的确,人脸识别和分析的最新技术还远远不够完美。因此,为了对社会关系进行更强有力地分析,任何有助于检测和衡量图像集中个人互动的贡献都很重要。

本文提供的工具对于检测图像集中现有的社会关系非常有帮助。未来,研究人员希望通过分析连通性矩阵,将检测目标增加到三人或更多。

原文:

https://arxiv.org/abs/1911.11970

以智能手机为触摸板在大型沉浸式显示器中进行多人交互

自诞生之日起,智能手机就完成了许多曾经被定义为Impossible Mission的任务。在这次的研究中,智能手机可以用作多人空间交互界面的触摸板了!

这项工作背后的研究人员提出了多种方法,合并了用户物理位置、输入设备(如智能手机和蓝牙麦克风)等信息,并将个人和共享屏幕区域进行自动情境化,使多个用户同时与一个大型的沉浸式屏幕进行交互。

个人互动区域出现在矩形封闭屏幕的两侧,用户可以在其中自由移动,选择空间,并操纵或生成相关图像。中间的共享屏幕区域可供多个用户同时使用,这一区域会基于用户选择的图像和预先定义的环境来生成布局。

该方法允许多个用户以自然的方式与较大的视觉沉浸式空间进行交互。

它可以将各种个人设备和语音与空间智能集成在一起,定义个人和共享交互区域,这为利用空间进行应用(包括课堂学习、协作、游戏等)提供了可能性。

视频演示:

https://www.youtube.com/watch?v=KMFVWdSi--4&feature=youtu.be
原文:

https://arxiv.org/abs/1911.11751v1

实现有效的Mix-and-Match图像生成

在本文中,研究人员介绍了一个叫做MixNMatch的条件生成模型,它可以学习从真实图像中分离编码背景、对象姿态、形状和纹理因素等。MixNMatch提供了图像生成中的细粒度控制,其中每个因子都可被唯一地控制。

image.png

MixMatch在训练期间需要边界框来对背景建模,但不需要其它监督。它以实际参考图像、采样的潜在代码或两者的混合作为输入,以准确分离、编码和组合多个因素,以生成混合匹配图像。

自从生成对抗网络(GAN)发现以来,图像生成已经取得了长足的进步。这项工作演示了如何将来自四个不同图像的各种形状、姿势、纹理和背景进行组合,以创建全新的图像。

通过许多有趣的应用程序(包括sketch2color、cartoon2img和img2gif),图像生成在实现真实图像的最新细粒度对象类别聚类结果方面取得了显著成果。

这一研究目前还存在着一些限制,如MixNmatch未能生成良好的对象掩码,从而生成不完整的对象。

代码/模型/演示:

https://github.com/Yuheng-Li/MixNMatch
原文:

https://arxiv.org/abs/1911.11758v1

文章来源:大数据文摘
作者:Christopher Dossman

相关文章
|
1月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
569 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
2月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
206 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
2月前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
2月前
|
机器学习/深度学习 人工智能 机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
|
2月前
|
人工智能 Java 机器人
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
Spring AI Alibaba集成Ollama,基于Java构建本地大模型应用,支持流式对话、knife4j接口可视化,实现高隐私、免API密钥的离线AI服务。
1523 1
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
|
2月前
|
存储 人工智能 监控
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作
如今的量化交易已远超传统技术指标,迈向多智能体协作的新时代。本文介绍了一个基于 **LangGraph** 构建的多智能体交易系统,模拟真实投资机构的运作流程:数据分析师收集市场情报,研究员展开多空辩论,交易员制定策略,风险团队多角度评估,最终由投资组合经理做出决策。系统具备记忆学习能力,通过每次交易积累经验,持续优化决策质量。
516 8
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作
|
2月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
167 10
|
2月前
|
人工智能 算法 开发者
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
2025年高教社杯E题——AI 辅助智能体测全国大学生数学建模(思路、代码、论文)
408 1
|
2月前
|
存储 人工智能 机器人
科技云报到:西湖大学、智元机器人都选它,存储成为AI下一个风口
科技云报到:西湖大学、智元机器人都选它,存储成为AI下一个风口
100 1
|
3月前
|
存储 人工智能 机器人
别再只做聊天机器人:AI 应用商业闭环的工程落地指南,免费体验中
本文介绍了如何通过阿里云百炼平台创建一个星座运势分析AI智能体,并集成支付宝MCP服务实现支付闭环。解决AI产品无法直接变现的问题,完成“服务-支付-交易”全流程闭环,帮助开发者快速实现商业化。