看YouTube学做广播体操?机器人即将掌握人类所有动作 | 一周AI最火论文

简介: 机器人世界正在迅速地发展,很快我们就会目睹机器人掌握更多之前只有人类能够掌握的技能。在这篇论文中,研究人员提出了一个激动人心的课题——指导机器人复制视频中的动作。他们解决了机器人对协同动作计划学习的挑战。

能够“观看和学习”YouTube视频的机器人

机器人世界正在迅速地发展,很快我们就会目睹机器人掌握更多之前只有人类能够掌握的技能。在这篇论文中,研究人员提出了一个激动人心的课题——指导机器人复制视频中的动作。他们解决了机器人对协同动作计划学习的挑战。

研究的目标是让机器人在互联网上“观看”视频、提取视频中的动作序列并将其转换为可执行的计划,使其既可以自主执行、也可以作为机器人团队和人机团队中的一部分来执行。

image.png

为了演示该框架的适用性,研究人员输入了一个YouTube视频,该视频演示了一个完整的协作烹饪任务。该框架假定视频中的目标已被标记,并使用一个最新的目标检测模型为每个目标限定一个边界。

技术世界正处于一个令人兴奋的发展阶段,尤其是在机器人技术等机器学习技术不断进步的当下。更令人激动的是,互联网中包含的大量视频内容都可以被机器人用以执行人机团队和机器人团队中的协同任务。

在本文演示中,两个机械臂重现了一个简单的烹饪视频。这是朝着机器人通过在线观看视频来执行一系列操作计划的目标,迈出的重要一步。本文方法的局限性来自最新的目标检测技术需要满足的前提假设等。

原文:

https://arxiv.org/abs/1911.10686

用于六维姿态估计的多视图匹配网络

本文中,研究人员提出了一种新技术,用于估计单个RGB图像中的六维姿态。

该方法结合了目标检测和分割方法,通过将输入图像与渲染图像进行匹配来估计、优化和跟踪目标的姿态。

首先,研究人员使用Mask R-CNN来检测和分割输入图像中感兴趣的目标;然后,使用多视图匹配模型来估计该目标的6D姿态;最后,使用单视图匹配模型完善姿态估计。该方法获得的准确度可与常规RGB姿态估计的最新方法(如PoseCNN + DeepIM)得到的准确度相媲美。

image.png

本文为如何扩展独特的模型用于估计、改进和跟踪目标的姿态,提供了新的研究思路。

本项研究提出的方法展示了网络如何自动协助优化和跟踪过程。该方法扩展了一个用于姿态估计、改进和跟踪的姿态优化网络DeepIM,而无需使用外部的初始姿态估计方法。

因此,初始姿态估计网络(如PoseCNN)可能会被可用度高的目标检测网络所取代,而该目标检测网络已通过大型训练数据集进行了训练。

原文:

https://arxiv.org/abs/1911.12330

使用图像分析和检测社会关系

本文中,两名研究人员提出了一种可用于图像集中的面部图表示的方法。该方法根据面部表情、亲近程度、同时出现和头部朝向来分析在一个社交活动中有多少人被联系起来。为了实现这一目标,研究人员定义了集合中每对目标之间的“连通性”测量值,该值代表了他们之间的关联程度。

在下图中,节点表示集合中的主题,边缘表示节点之间的连接。节点越近,主题之间的联系就越紧密。

image.png

研究人员还开发了图形用户界面,用户可以在界面中单击节点或边缘来展示存在相连主题的图像集。

文中通过分析婚礼庆典、情景喜剧视频、排球比赛以及从Twitter提取的带有标签的图像提供了较为准确的结果。

的确,人脸识别和分析的最新技术还远远不够完美。因此,为了对社会关系进行更强有力地分析,任何有助于检测和衡量图像集中个人互动的贡献都很重要。

本文提供的工具对于检测图像集中现有的社会关系非常有帮助。未来,研究人员希望通过分析连通性矩阵,将检测目标增加到三人或更多。

原文:

https://arxiv.org/abs/1911.11970

以智能手机为触摸板在大型沉浸式显示器中进行多人交互

自诞生之日起,智能手机就完成了许多曾经被定义为Impossible Mission的任务。在这次的研究中,智能手机可以用作多人空间交互界面的触摸板了!

这项工作背后的研究人员提出了多种方法,合并了用户物理位置、输入设备(如智能手机和蓝牙麦克风)等信息,并将个人和共享屏幕区域进行自动情境化,使多个用户同时与一个大型的沉浸式屏幕进行交互。

个人互动区域出现在矩形封闭屏幕的两侧,用户可以在其中自由移动,选择空间,并操纵或生成相关图像。中间的共享屏幕区域可供多个用户同时使用,这一区域会基于用户选择的图像和预先定义的环境来生成布局。

该方法允许多个用户以自然的方式与较大的视觉沉浸式空间进行交互。

它可以将各种个人设备和语音与空间智能集成在一起,定义个人和共享交互区域,这为利用空间进行应用(包括课堂学习、协作、游戏等)提供了可能性。

视频演示:

https://www.youtube.com/watch?v=KMFVWdSi--4&feature=youtu.be
原文:

https://arxiv.org/abs/1911.11751v1

实现有效的Mix-and-Match图像生成

在本文中,研究人员介绍了一个叫做MixNMatch的条件生成模型,它可以学习从真实图像中分离编码背景、对象姿态、形状和纹理因素等。MixNMatch提供了图像生成中的细粒度控制,其中每个因子都可被唯一地控制。

image.png

MixMatch在训练期间需要边界框来对背景建模,但不需要其它监督。它以实际参考图像、采样的潜在代码或两者的混合作为输入,以准确分离、编码和组合多个因素,以生成混合匹配图像。

自从生成对抗网络(GAN)发现以来,图像生成已经取得了长足的进步。这项工作演示了如何将来自四个不同图像的各种形状、姿势、纹理和背景进行组合,以创建全新的图像。

通过许多有趣的应用程序(包括sketch2color、cartoon2img和img2gif),图像生成在实现真实图像的最新细粒度对象类别聚类结果方面取得了显著成果。

这一研究目前还存在着一些限制,如MixNmatch未能生成良好的对象掩码,从而生成不完整的对象。

代码/模型/演示:

https://github.com/Yuheng-Li/MixNMatch
原文:

https://arxiv.org/abs/1911.11758v1

文章来源:大数据文摘
作者:Christopher Dossman

相关文章
|
27天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
192 64
|
11天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
38 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
2天前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
28 13
|
9天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
22天前
|
数据采集 人工智能 小程序
【一步步开发AI运动小程序】十、姿态动作相似度比较
本文介绍如何利用“云智AI运动识别小程序插件”开发AI运动小程序,重点讲解姿态动作相似度比较功能的运用,包括样本动作帧的采集和姿态相似度的计算方法,以及在组合运动中的应用实例。
|
1月前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
31 2
|
1月前
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
239 1
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
2024.10|AI/大模型在机器人/自动驾驶/智能驾舱领域的最新应用和深度洞察
本文介绍了AI和大模型在机器人、自动驾驶和智能座舱领域的最新应用和技术进展。涵盖多模态大语言模型在机器人控制中的应用、移动机器人(AMRs)的规模化部署、协作机器人的智能与安全性提升、AR/VR技术在机器人培训中的应用、数字孪生技术的优化作用、Rust语言在机器人编程中的崛起,以及大模型在自动驾驶中的核心地位、端到端自动驾驶解决方案、全球自动驾驶的前沿进展、智能座舱的核心技术演变和未来发展趋势。
178 2
|
1月前
|
机器学习/深度学习 人工智能 运维
电话机器人源码-智能ai系统-freeswitch-smartivr呼叫中心-crm
电话机器人源码-智能ai系统-freeswitch-smartivr呼叫中心-crm
56 0
|
1月前
|
存储 人工智能 搜索推荐
AI智能语音机器人的基本业务流程
简介: 先画个图,了解下AI语音机器人的基本业务流程。上图是一个AI语音机器人的业务流程,简单来说就是首先要配置话术,就是告诉机器人在遇到问题该怎么回答,这个不同公司不同行业的差别比较大,所以一般每个客户都会配置其个性化的话术。话术配置完成后,需要给账号配置线路,目的就是能够顺利的把电话打出去。线路配完后,就是建立任务了,说白了就是导入电话号码,因为资源有限,不可能导入一批立即打完,所以需要以任务的形式分配给机器人,然后机器人逐个完成。值得一提的是,如果有多条线路,创建任务时建议提供线路选择功能,很多公司的业务不止一个城市,而大家又是比较习惯接听自己所在城市的电话,所以这个选择主

热门文章

最新文章