与生成模型相比,为何机器人研究还在用几年前的老方法?

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 与生成模型相比,为何机器人研究还在用几年前的老方法?

Eric Jang 表示:「作为一名机器人专家,在训练 ResNet18 时,很难不对 NLP 研究人员正在训练的大模型产生嫉妒。」


目前机器人领域取得了显著进展,这些进展预示着未来机器人可以做更多事情。但是也有让人困扰的事情,因为与生成模型相比,机器人的进展还是有点逊色,尤其是 GPT-3 等模型的出现,这一差距更加突出。

生成模型产生的结果好到令人震惊。如上图左侧是谷歌推出的 Imagen 的输出结果。你可以提供一段文字给它,如「一只仓鼠戴着橙色的小帽,手里拿着我爱 JAX 的纸片」,根据给定的文字,Imagen 会渲染出合理的图像。此外,谷歌还训练了一个大型语言模型 PaLM,可以用来解释为什么笑话很有趣等。他们用 TPUv4 等先进硬件训练模型,并且在计算机视觉领域,研究人员正在开发一些非常复杂的架构,如 Vision Transformers 等。

生成模型发展如此迅猛,与机器人技术相比,两者之间有什么联系呢?

本文中,来自挪威机器人公司「Halodi Robotics」的 AI 副总裁 Eric Jang 介绍了《我们如何让机器人更像生成模型?》。以下为文章主要内容。

作为一名机器人领域专家,生成模型领域的进展让人有点羡慕。因为在机器人领域中,大多数研究者可能仍在使用 ResNet18,这个已有 7 年历史的深度学习架构。我们当然不会像生成模型那样在巨大的数据集上训练模型,所以很少有机器人方面的研究工作成为「耀眼」的头条新闻。

我们知道莫拉维克悖论:相较于认知型任务,灵活的操纵机器人很困难,从直觉上看,让机器人拿起并运送物体这些操作,似乎没有把文字变成图像或解释笑话那么令人印象深刻。

首先我们给生成模型下一个定义。生成模型不仅仅是渲染图片或生成大量的文本。它还是一个框架,我们可以用它来理解所有的概率机器学习。生成模型有两个核心问题:

1、你要建模的数据类别有多少 bits?2、你能把模型建的多好?

2012 年 AlexNet 取得突破,它可以对 1000 个类别进行预测,Log2(1000 classes)大约是 10 class bit。你可以把 AlexNet 想象成基于图像的生成模型,包含 10bits 信息。如果你把建模任务的难度升级到 MS-CoCo 字幕任务,这时模型包含大约 100bits信息。如果你正在进行图像生成,例如使用 DALLE 或 Imagen 从文本到图像生成,大约包含 1000bits信息。

通常对越多的类别进行建模,就需要越多的算力来计算其中蕴含的条件概率,这就是为什么随着类别的增多模型会变的庞大。当我们训练越来越大的模型时,就有可能利用数据中的特征,从而可以学习更丰富的结构。这就是为什么生成模型和自监督学习已经成为流行的方法,可以在不需要大量人工标签的情况下对大量的输入进行深度学习。

Rich Sutton 在其文章《The Bitter Lesson》中指出:人工智能的大部分进展似乎都是在这股计算热潮中取得的,而其他方面几乎没有发展。Vision 算法、NLP 和 Yann LeCun 的 LeCake 等都受益于这股计算热潮。

这种趋势给我们什么启示?如果你有过渡参数化的模型,其能够处理更多数据,并且模型能够掌握网络中的所有特征,加上很强的算力和训练目标,深度学习几乎总是可行的。

下面让 DALL-E 2 生成一副图像:一头踏在巨浪上的骡子,这幅图展示了生成模型是如何借助计算热潮取得不凡的成绩。你手握强大的算力(transformer、Resnet 等),并且可以选择 VQVAE、Diffusion、GAN、Autoregressive 等算法来建模。当前每种算法细节很重要,但未来一旦计算机的算力足够强大,这些细节可能就不重要了。但从长远来看,模型规模和良好的架构是所有这些进步的基础。

相比之下,下图展示的是机器人领域泛化研究的现状。目前很多机器人研究人员仍在进行的是小模型训练,并且还没有用过 Vision Transformer!

对于从事机器人研究的人来说,他们都希望机器人能更广泛的应用在现实世界中,并且发挥更大的作用。在生成模型领域,研究者面临的问题相对较少,而在机器人研究领域,经常遇到机器人部署难、噪声数据等问题,这些从事生成模型的研究者都不会遇到。

接下来我们从三个不同的维度比较生成模型和机器人技术,这三个方面包括优化、评估和表达能力。

优化

首先让我们看一个简单的生成模型:PixelRNN。

从第一个像素的红色通道开始(红色通道的先验概率是已知的),模型告诉 canvas(顶行)它要绘制的像素。canvas 将完全按照指令绘制,因此它将像素值复制到 canvas 上,然后将 canvas 读回模型中,以预测下一个通道即绿色通道。然后将 R、G canvas 上的值反馈给 RNN,依此类推,最终生成 RGBRGBRGB… 序列。

在实际的图像生成任务中,可以使用 diffusion 或 transformer。但为了简单起见,我们仅使用前向执行的 RNN。

现在让我们将一般控制问题转换为 PixelRNN。与生成图像不同的是,我们要生成 MDP(马尔可夫决策过程):状态、动作和奖励的序列。我们希望生成 MDP,这个 MDP 对应于完成某些任务的智能体(如机器人)。这里我们也是从先验知识开始,模型对强化学习 (RL) 环境的初始状态进行采样。这是模型的第一个输入,RNN 对第一个像素 (A) 进行采样,canvas 完全按照指令的要求生成 A。但是,与生成图像不同的是,canvas 总是将之前的 RNN 输出返回,现在的操作是接下来的两个像素(R,S)由当前环境决定:即它接受动作和所有之前的状态,并以某种方式计算 R,S。

我们可以把 RL 环境视为绘制对象(painter object),它执行 RNN 动作,而不是直接在 canvas 上绘制想要的内容,它会使用任意复杂的函数绘制像素。

如果我们将其与前面绘制图像的 PixelRNN 进行对比,这个任务显然更具挑战,因为当你尝试对想要的图像进行采样,会有一个黑盒,这个黑盒会对要绘制内容造成困难。

绘制过程中会碰到一个典型的问题:如果环境绘制了一个非预期内的状态,就会有问题,即如何发出纠正指令,以便可以返回到我们尝试绘制的图像。此外,与图像生成不同,我们实际上必须按顺序生成 MDP 图像,并且不能回溯进行编辑,这也带来了优化挑战。

如果想理解 PPO 这样的 RL 方法是如何泛化的,我们应该在非控制环境下对其进行基准测试,将其应用于图像生成技术,并将其与现代生成模型进行比较。Hinton 和 Nair 在 2006 年的工作中,他们使用 springs 系统对 MNIST 数字合成进行建模。DeepMind 使用 RL 方法复现这种图像合成的部分工作。

图像生成是研究优化和控制的很好的基准,因为它真正强调了在成千上万个不同场景中进行泛化的必要性。

近期如 Decision Transformer、Trajectory Transformer 以及 Multi-Game Decision Transformer 表明,upside-down RL 技术在泛化方面做得很好。那么 upside-down RL 技术与在线(PPO)或离线 RL 算法(CQL)相比如何?其实要进行评估也很简便,我们可以评估密度(专家完全观察的似然模型)并验证给定的 RL 算法选择是否可以在测量测试似然度时泛化到大量图像。

评估

如果想估量机器人在某些任务上的成功率,我们可以使用二项分布。

二项分布的方差为 p(1−p)/N,p 为样本均值(估计的成功率); N 为试验次数。在最坏的情况下,如果 p=50%(最大方差),那么需要 3000 个样本才能使标准差小于 1%!

如果我们从计算机视觉的角度来看,0.1-1% 范围内的提升是前进的重要驱动力。ImageNet 目标识别问题,自 2012 年以来取得了很大进步,2012 到 2014 年的错误率降低了 3%,然后每年大约降低 1%,有很多人在研究如何使这项工作发挥作用。也许今年 (2022 年) 在基准提升上已经达到瓶颈,但在 2012-2018 年的这 7 年间,研究人员取得了很多进展和成果。

在生成建模的其他领域,研究人员一直在降低语言模型的复杂性,以及生成模型在图像上的每维 bit 数(bits-per-dimension)。


下面大致比较一下通用基准的评估速度。2012 年 ImageNet 目标识别测试集中有 150000 个图像。假设每个图像的推理速度为 10ms,并且每次是连续评估每个图像,这样评估每个测试示例大约需要 25 分钟(实际上评估速度要快得多,因为可以进行批量处理)。但这里假设我们只有单台机器人进行评估操作,并且必须连续处理图像。

因为有海量图像,所以我们可以得到标准误差估计在 0.1% 以内。事实上我们不需要 0.1% 的标准误差才能在该领域取得进展,可能 1% 就够了。

在评估复杂性方面,端到端的性能也是重要的一块。下面我们来看看怎样进行神经网络在模拟任务中的端到端性能评估。Habitat Sim 是目前速度最快的模拟器之一,其设计目的是最大限度地减少神经网络推理和环境步进之间的开销。模拟器可以每秒 10000 step,但由于神经网络的正向传递约为 10ms,该瓶颈导致每个 episode 的评估时间为 2 秒(假设典型的 navigation episode 为 200 step)。这比运行真正的机器人快得多,但比评估单个计算机视觉样本慢得多。

如果要评估端到端的机器人系统,其多样性水平与我们使用 ImageNet 所做的相似,普通的评估需要 1 周时间来处理数十万个评估场景。这并不完全是合理的比较,因为每个 episode 实际上有 200 个左右的推理过程,但我们不能将单个 episode 内的图像视为独立的验证集。如果没有任何其它 episode 度量,我们只知道任务是否成功,因此 episode 内的所有推理只对二项式估计的单个样本有贡献。我们必须根据数万个 episode 而不是图片来估计成功率。当然,我们可以尝试使用其他策略评估方法,但这些算法还不够可靠,无法开箱即用。

接下来阶段,我们对真实机器人进行现场评估。在现实世界中每个 episode 大约需要 30 秒的时间进行评估,如果一个由 10 名操作员组成的团队进行评估,每个操作员每天可以完成 300 个 episode,那么每天可以进行大约 3000 次评估。

如果评估模型需要一整天的时间,这会对工作效率造成很大的限制,因为这样每天只能尝试一种想法。所以我们不能再研究那些将性能逐步提高 0.1% 的小想法,或者非常极端的想法。我们必须想办法在性能上实现大飞跃。虽然这看起来不错,但在实践中很难做到。

当考虑进行机器人学习迭代过程时,很容易让评估试验的数量远远超过你的训练数据!几个月的不间断评估产生了约数万个 episode,这已经超过了大多数机器人深度学习演示数据集。

几年前,研究人员仍在解决类似让机械臂开门的问题,但这些策略不能进行很好的泛化。研究人员通常按照 10 个 episode 左右的顺序进行评估。但 10-50 次试验实际上不足以保证统计鲁棒性。为了取得好的效果,实际可能要进行超过 1000 次试验以进行最终评估。

但当进一步扩展试验时会发生什么呢?假如我们最终需要训练具有 O(100,000)种行为、极其通用的机器人系统,我们需要多少次试验来评估这样的通用系统?这里的评估成本变得极其高昂。

这里再强调一次:数据是足够的,评估存在瓶颈!


相关文章
|
16天前
|
机器学习/深度学习 人工智能 分布式计算
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
本次教程介绍了如何使用 PAI 和 LLaMA Factory 框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
|
2月前
|
人工智能 算法 机器人
机器人版的斯坦福小镇来了,专为具身智能研究打造
【8月更文挑战第12天】《GRUtopia:城市级具身智能仿真平台》新论文发布,介绍了一款由上海AI实验室主导的大规模3D城市模拟环境——GRUtopia。此平台包含十万级互动场景与大型语言模型驱动的NPC系统,旨在解决具身智能研究中的数据稀缺问题并提供全面的评估工具,为机器人技术的进步搭建重要桥梁。https://arxiv.org/pdf/2407.10943
189 60
|
2月前
|
机器学习/深度学习 算法 机器人
使用Python实现深度学习模型:智能灾害响应与救援机器人
使用Python实现深度学习模型:智能灾害响应与救援机器人
58 16
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】自然语言处理(NLP)的突破,关注NLP在机器翻译、情感分析、聊天机器人等方面的最新研究成果和应用案例。
自然语言处理(NLP)作为人工智能的一个重要分支,近年来取得了显著的突破,特别在机器翻译、情感分析、聊天机器人等领域取得了显著的研究成果和广泛的应用。以下是对这些领域最新研究成果和应用案例的概述,并附带相应的代码实例。
80 1
|
4月前
|
机器人
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
【6月更文挑战第29天】北京大学研发的RoboMamba是新型机器人多模态大模型,融合Mamba SSM的高效推理与视觉编码器,提升复杂任务处理能力。通过微调策略,仅用少量参数即可快速习得操作技能,实现在通用及机器人场景的高效运行,推理速度提升7倍。尽管面临泛化和可解释性挑战,RoboMamba展示了多模态模型的新潜力。[论文链接:](https://arxiv.org/abs/2406.04339)
75 1
|
3月前
|
数据采集 传感器 监控
LabVIEW在机器人研究所中的应用
LabVIEW在机器人研究所中的应用
34 0
|
4月前
|
人工智能 小程序 机器人
开源一个RAG大模型本地知识库问答机器人-ChatWiki
准备工作 再安装ChatWiki之前,您需要准备一台具有联网功能的linux服务器,并确保服务器满足最低系统要求 • Cpu:最低需要2 Core • RAM:最低需要4GB 开始安装 ChatWiki社区版基于Docker部署,请先确保服务器已经安装好Docker。如果没有安装,可以通过以下命令安装:
274 0
|
5月前
|
人工智能 机器人 芯片
英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言
在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。
|
5月前
|
人工智能 机器人 Go
人类发明及研究AI机器人是在作死吗?
生化武器、X战警,当时看电影时只是感觉电影很精彩,佩服导演的脑洞大,制作团队技术精湛。但自从 alpha go、chatGPT 越来越多的AI 场景被大众认知,越来越相信总有一天这个美丽的蓝色星球未来的主人会变成机器人,人类将不复存在。
80 3
|
5月前
|
传感器 人工智能 自然语言处理
智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人
智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人
智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人