看视频就能学杂技,伯克利最新AI智能体

简介:

人类非常聪明,我们可以通过观察进行学习。无论是日常的洗手,还是惊人的杂技表演,对人类来说都是可以学习的。

然而,对于机器来说,通过观察来学习是非常困难的。YouTube上面每分钟都会有300小时的视频上传,即使拥有如此庞大的数据库,也很难用它来训练机器。

因为,大多数模仿学习方法的表示必须非常简单以及简洁,例如动作捕捉(mocap)记录的表示。但获取动作数据可能非常麻烦,通常需要大量的仪器。动作捕捉系统也往往局限于室内环境,这显然严重限制了机器的学习。

如果我们的机器人可以通过观看视频片段来学习技能,那将会非常棒~

例如~

d22ebdd6bd5c24d7a637113291b821972b897944

为了达到这种效果,伯克利大学提出了一个从视频(SFV)中学习技能的框架。利用计算机视觉和强化学习方面的最先进技术,系统使模拟角色能够从视频剪辑中学习各种各样的技能。给定一段动作视频,例如车轮或后空翻,特定对象能够学习从而再现该动作,而无需任何手动姿势注释。

d0b489b84bc7e6bb30d8c6749e38998b75a3b129

通过观看视频,从而学习运动技能的问题一直在计算机领域备受关注。 以前的技术通常依赖于手工制作的控制结构,这些控制结构对产生的行为施加了强大的限制。因此,这些方法往往受限于可以学习的技能类型,并且,机器人模仿出来的动作看起来相当不自然。

观看视频感受下最新成果

5e81e48a45c2beba0e45d3da347d66fe4f024ae0

最近,深度学习技术在简单的机器学习任务中表现的非常棒。但是这些任务通常只是简单的域转换,并而连续控制的结果主要是在相对简单的动态任务上进行的。

框架

63d1d4e1fe80bcf64d8b94f9b06a610e342bdaad

该学习框架由三个部分组成:姿态估计、运动重构和运动仿真。输入的视频首先由姿态估计阶段进行处理,预测每个帧中参与者的姿态。接下来,运动重建阶段将姿态预测合并为参考运动,并修复可能由姿态预测引入的伪影。最后,参考运动被传递到运动模拟阶段,在该阶段,一个模型被训练成模拟运动。

姿势估计

给定一个剪辑过的视频,使用一个基于视觉的姿态估计器来预测视频中的角色在每一帧中的姿态。姿态估计器是建立在人工网格恢复的基础上的,该方法使用弱监督的对抗性方法训练姿态估计器,从单目图像中预测姿态。虽然姿态标注是用来训练姿态估计器的,但是一旦经过训练,姿态估计器就可以应用到没有任何注解的新图像上。

a396e128928390535ed55a59b9f4e580dfc5dcd5

基于视觉的姿态估计器用于预测每个视频帧中参与者的姿态。

运动重构

由于姿态估计器对每个视频帧的预测是相互独立的,因此帧间的预测可能不一致,从而导致抖动伪影。此外,尽管基于视觉的姿态估计器在最近几年有了很大的改进,但它们仍然偶尔会犯一些相当大的错误,这可能导致不时出现一些奇怪的姿势。因此,运动重建阶段的作用是减少这些错误,从而产生一个更物理的参考运动,将更容易的模拟字符。

为此,优化参考运动,从而满足公式

e2b5e3acc7616508c2b20b80394b2c12b38babf0

相邻帧中的姿势相似以便产生更平滑的运动。另外,wp和wsm是不同损失的权重。

该方法可以大大提高参考运动的质量,并能修复原始姿态预测产生的大量伪影。

f6d355c1d1b48056e23a3a1febe8b0c723a3cedd

运动重建前后参考运动的比较。运动重建减轻了许多伪影,并产生了更平滑的参考运动。

运动模拟

一旦有了理想的参考运动,可以继续训练模拟角色从而模仿运动。然后引入奖励函数,其目标是鼓励模拟的姿态与重构的参考运动在每个帧的姿态的差异降到最小。

5e292fe9da7e8d3b9d42365a9703ff099dab2dc4

这种看似简单的方法的表现确是很棒,我们的角色能够学习到各种具有挑战性的杂技技能,其中每一项技能都可以从一个视频演示中学到的。

f23fe64157842bd6f46214643b51e1ff5a17e286
总结

总之,我们的使用的方法能够从YouTube收集的各种视频剪辑中学习到20多种不同的技能。

d4b2859464e20943ddb2127e35c2d259ac1b0cb1

我们的框架可以从视频演示中学习大量技能。

尽管我们角色的形态往往与视频中的人物有很大的不同,但是确实能够模仿很多动作。作为一个更极端的形态差异的例子,我们也可以训练一个阿特拉斯机器人来模仿视频中人物的动作

c2065b07944846108ad4ce9a36b75fa0e5e4a5f1

拥有一个模拟人物的优点之一是,我们可以利用模型将这些行为应用到新的环境中。在这里,我们的模型,学习适应不规则地形的运动,而原始视频,也就是学习对象中中的人物是在平坦的地面中演示的。

e0fbaa36e8c8dce1163b07db256e33161a3df512

尽管环境与原始视频有很大的不同,但学习算法仍然为处理这些新环境开发了相当合理的策略。

总之,这个学习框架实际上是采取最简单的方法来解决模仿视频的问题。关键在于将问题分解为更易于管理的部分,为这些部分选择正确的方法,并将它们有效地集成在一起。然而,模仿视频的技巧仍然是一个极具挑战性的问题,我们还无法复制大量的视频片段:

1b0df9bb09d3c6e3e45b530a709e2a77ecae3bc2

但令人鼓舞的是,只要将现有的技术集成在一起,就可以在这个具有挑战性的问题上走得更远。希望这项工作将有助于未来的技术,让机器能够利用大量公开的视频数据,获得一系列真正令人震惊的技能。


原文发布时间为:2018-10-10

本文作者:蒋宝尚

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
11天前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
260 0
|
11天前
|
人工智能 自然语言处理 开发者
AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!
本次AI创作活动由 B 站知名 AI Up 主“秋葉aaaki”带您学习在阿里云 模型在线服务(PAI-EAS)中零代码、一键部署基于ComfyUI和Stable Video Diffusion模型的AI视频生成Web应用,快速实现文本生成视频的AI生成解决方案,帮助您完成社交平台短视频内容生成、动画制作等任务。制作上传专属GIF视频,即有机会赢取乐歌M2S台式升降桌、天猫精灵、定制保温杯等好礼!
|
26天前
|
机器学习/深度学习 人工智能 监控
AI算法分析,智慧城管AI智能识别系统源码
AI视频分析技术应用于智慧城管系统,通过监控摄像头实时识别违法行为,如违规摆摊、垃圾、违章停车等,实现非现场执法和预警。算法平台检测街面秩序(出店、游商、机动车、占道)和市容环境(垃圾、晾晒、垃圾桶、路面不洁、漂浮物、乱堆物料),助力及时处理问题,提升城市管理效率。
AI算法分析,智慧城管AI智能识别系统源码
|
28天前
|
机器学习/深度学习 编解码 人工智能
麻省理工AI新研究可将马赛克变视频
【2月更文挑战第30天】麻省理工学院等机构的研究团队推出AI新技术FeatUp,可将低分辨率图像提升为高清视频,该技术在2024年ICLR会议上引起关注。FeatUp基于深度特征提取,通过多视角一致性损失恢复空间信息,提高视频清晰度。模型通用性强,适用于多种任务和现有应用。实验显示,它在图像超分辨率和端到端学习模型性能提升上超越其他方法。然而,尚存在对某些内容处理不完善和计算资源需求高的局限性。
51 2
麻省理工AI新研究可将马赛克变视频
|
28天前
|
机器学习/深度学习 人工智能 运维
《未来智能运维:AI技术的应用与展望》
在当今数字化时代,智能运维正日益成为企业提升效率、降低成本的关键。本文将探讨人工智能技术在运维领域的应用现状与未来发展趋势,展望未来智能运维的发展前景。
43 1
|
24天前
|
人工智能 监控 算法
java智慧城管源码 AI视频智能分析 可直接上项目
Java智慧城管源码实现AI视频智能分析,适用于直接部署项目。系统运用互联网、大数据、云计算和AI提升城市管理水平,采用“一级监督、二级指挥、四级联动”模式。功能涵盖AI智能检测(如占道广告、垃圾处理等)、执法办案、视频分析、统计分析及队伍管理等多个模块,利用深度学习优化城市管理自动化和智能化,提供决策支持。
142 4
java智慧城管源码 AI视频智能分析 可直接上项目
|
27天前
|
人工智能 安全 数据安全/隐私保护
一个案例,看懂AI Agent厂商的商业落地路径
随着大语言模型技术的进步,国内科技巨头正加速在AI Agent领域的布局,利用自身技术和应用场景推动AI Agent在各行业的深度融合。百度、飞书、钉钉等已推出相关产品,其中实在智能的Agent智能体结合AI和RPA技术,提供高度自主和交互性的软件实体,已在多个场景实现商用并即将公测。企业选择AI Agent时关注点包括与现有自动化解决方案的融合、易用性、数据安全和新业务自动化能力。实在智能的Agent解决方案因其灵活性、安全性及广泛的应用潜力受到青睐。
54 1
|
8天前
|
人工智能 算法 测试技术
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!
【4月更文挑战第10天】KAUST和哈佛大学联合研发的MiniGPT4-Video模型在视频理解任务中打破多项纪录,成为业界关注点。这款多模态AI系统基于大型语言模型,能同时处理视觉和文本信息,提升了视频内容理解的深度。通过创新的视觉-文本混合处理,模型在MSVD、MSRVTT等基准测试中取得显著性能提升。然而,由于依赖上下文窗口,目前对较长视频处理有限制。该模型的出现推动了视频理解领域的进步,具有广阔的应用前景。
17 1
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!
|
20天前
|
人工智能 监控 搜索推荐
智能管理日常花销 — AI Coze打造个人财务小助手的全新体验(初版)(一)
智能管理日常花销 — AI Coze打造个人财务小助手的全新体验(初版)
41 0
|
27天前
|
人工智能 JSON 运维
AI大模型运维开发探索第三篇:深入浅出运维智能体
大模型出现伊始,我们就在SREWorks开源社区征集相关的实验案例。玦离同学提供了面向大数据HDFS集群的智能体案例,非常好地完成了运维诊断的目标。于是基于这一系列的实验和探索。本文详细介绍智能体在运维诊断中的应用探索。

热门文章

最新文章