与生成模型相比,为何机器人研究还在用几年前的老方法?

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 与生成模型相比,为何机器人研究还在用几年前的老方法?

Eric Jang 表示:「作为一名机器人专家,在训练 ResNet18 时,很难不对 NLP 研究人员正在训练的大模型产生嫉妒。」


目前机器人领域取得了显著进展,这些进展预示着未来机器人可以做更多事情。但是也有让人困扰的事情,因为与生成模型相比,机器人的进展还是有点逊色,尤其是 GPT-3 等模型的出现,这一差距更加突出。

生成模型产生的结果好到令人震惊。如上图左侧是谷歌推出的 Imagen 的输出结果。你可以提供一段文字给它,如「一只仓鼠戴着橙色的小帽,手里拿着我爱 JAX 的纸片」,根据给定的文字,Imagen 会渲染出合理的图像。此外,谷歌还训练了一个大型语言模型 PaLM,可以用来解释为什么笑话很有趣等。他们用 TPUv4 等先进硬件训练模型,并且在计算机视觉领域,研究人员正在开发一些非常复杂的架构,如 Vision Transformers 等。

生成模型发展如此迅猛,与机器人技术相比,两者之间有什么联系呢?

本文中,来自挪威机器人公司「Halodi Robotics」的 AI 副总裁 Eric Jang 介绍了《我们如何让机器人更像生成模型?》。以下为文章主要内容。

作为一名机器人领域专家,生成模型领域的进展让人有点羡慕。因为在机器人领域中,大多数研究者可能仍在使用 ResNet18,这个已有 7 年历史的深度学习架构。我们当然不会像生成模型那样在巨大的数据集上训练模型,所以很少有机器人方面的研究工作成为「耀眼」的头条新闻。

我们知道莫拉维克悖论:相较于认知型任务,灵活的操纵机器人很困难,从直觉上看,让机器人拿起并运送物体这些操作,似乎没有把文字变成图像或解释笑话那么令人印象深刻。

首先我们给生成模型下一个定义。生成模型不仅仅是渲染图片或生成大量的文本。它还是一个框架,我们可以用它来理解所有的概率机器学习。生成模型有两个核心问题:

1、你要建模的数据类别有多少 bits?2、你能把模型建的多好?

2012 年 AlexNet 取得突破,它可以对 1000 个类别进行预测,Log2(1000 classes)大约是 10 class bit。你可以把 AlexNet 想象成基于图像的生成模型,包含 10bits 信息。如果你把建模任务的难度升级到 MS-CoCo 字幕任务,这时模型包含大约 100bits信息。如果你正在进行图像生成,例如使用 DALLE 或 Imagen 从文本到图像生成,大约包含 1000bits信息。

通常对越多的类别进行建模,就需要越多的算力来计算其中蕴含的条件概率,这就是为什么随着类别的增多模型会变的庞大。当我们训练越来越大的模型时,就有可能利用数据中的特征,从而可以学习更丰富的结构。这就是为什么生成模型和自监督学习已经成为流行的方法,可以在不需要大量人工标签的情况下对大量的输入进行深度学习。

Rich Sutton 在其文章《The Bitter Lesson》中指出:人工智能的大部分进展似乎都是在这股计算热潮中取得的,而其他方面几乎没有发展。Vision 算法、NLP 和 Yann LeCun 的 LeCake 等都受益于这股计算热潮。

这种趋势给我们什么启示?如果你有过渡参数化的模型,其能够处理更多数据,并且模型能够掌握网络中的所有特征,加上很强的算力和训练目标,深度学习几乎总是可行的。

下面让 DALL-E 2 生成一副图像:一头踏在巨浪上的骡子,这幅图展示了生成模型是如何借助计算热潮取得不凡的成绩。你手握强大的算力(transformer、Resnet 等),并且可以选择 VQVAE、Diffusion、GAN、Autoregressive 等算法来建模。当前每种算法细节很重要,但未来一旦计算机的算力足够强大,这些细节可能就不重要了。但从长远来看,模型规模和良好的架构是所有这些进步的基础。

相比之下,下图展示的是机器人领域泛化研究的现状。目前很多机器人研究人员仍在进行的是小模型训练,并且还没有用过 Vision Transformer!

对于从事机器人研究的人来说,他们都希望机器人能更广泛的应用在现实世界中,并且发挥更大的作用。在生成模型领域,研究者面临的问题相对较少,而在机器人研究领域,经常遇到机器人部署难、噪声数据等问题,这些从事生成模型的研究者都不会遇到。

接下来我们从三个不同的维度比较生成模型和机器人技术,这三个方面包括优化、评估和表达能力。

优化

首先让我们看一个简单的生成模型:PixelRNN。

从第一个像素的红色通道开始(红色通道的先验概率是已知的),模型告诉 canvas(顶行)它要绘制的像素。canvas 将完全按照指令绘制,因此它将像素值复制到 canvas 上,然后将 canvas 读回模型中,以预测下一个通道即绿色通道。然后将 R、G canvas 上的值反馈给 RNN,依此类推,最终生成 RGBRGBRGB… 序列。

在实际的图像生成任务中,可以使用 diffusion 或 transformer。但为了简单起见,我们仅使用前向执行的 RNN。

现在让我们将一般控制问题转换为 PixelRNN。与生成图像不同的是,我们要生成 MDP(马尔可夫决策过程):状态、动作和奖励的序列。我们希望生成 MDP,这个 MDP 对应于完成某些任务的智能体(如机器人)。这里我们也是从先验知识开始,模型对强化学习 (RL) 环境的初始状态进行采样。这是模型的第一个输入,RNN 对第一个像素 (A) 进行采样,canvas 完全按照指令的要求生成 A。但是,与生成图像不同的是,canvas 总是将之前的 RNN 输出返回,现在的操作是接下来的两个像素(R,S)由当前环境决定:即它接受动作和所有之前的状态,并以某种方式计算 R,S。

我们可以把 RL 环境视为绘制对象(painter object),它执行 RNN 动作,而不是直接在 canvas 上绘制想要的内容,它会使用任意复杂的函数绘制像素。

如果我们将其与前面绘制图像的 PixelRNN 进行对比,这个任务显然更具挑战,因为当你尝试对想要的图像进行采样,会有一个黑盒,这个黑盒会对要绘制内容造成困难。

绘制过程中会碰到一个典型的问题:如果环境绘制了一个非预期内的状态,就会有问题,即如何发出纠正指令,以便可以返回到我们尝试绘制的图像。此外,与图像生成不同,我们实际上必须按顺序生成 MDP 图像,并且不能回溯进行编辑,这也带来了优化挑战。

如果想理解 PPO 这样的 RL 方法是如何泛化的,我们应该在非控制环境下对其进行基准测试,将其应用于图像生成技术,并将其与现代生成模型进行比较。Hinton 和 Nair 在 2006 年的工作中,他们使用 springs 系统对 MNIST 数字合成进行建模。DeepMind 使用 RL 方法复现这种图像合成的部分工作。

图像生成是研究优化和控制的很好的基准,因为它真正强调了在成千上万个不同场景中进行泛化的必要性。

近期如 Decision Transformer、Trajectory Transformer 以及 Multi-Game Decision Transformer 表明,upside-down RL 技术在泛化方面做得很好。那么 upside-down RL 技术与在线(PPO)或离线 RL 算法(CQL)相比如何?其实要进行评估也很简便,我们可以评估密度(专家完全观察的似然模型)并验证给定的 RL 算法选择是否可以在测量测试似然度时泛化到大量图像。

评估

如果想估量机器人在某些任务上的成功率,我们可以使用二项分布。

二项分布的方差为 p(1−p)/N,p 为样本均值(估计的成功率); N 为试验次数。在最坏的情况下,如果 p=50%(最大方差),那么需要 3000 个样本才能使标准差小于 1%!

如果我们从计算机视觉的角度来看,0.1-1% 范围内的提升是前进的重要驱动力。ImageNet 目标识别问题,自 2012 年以来取得了很大进步,2012 到 2014 年的错误率降低了 3%,然后每年大约降低 1%,有很多人在研究如何使这项工作发挥作用。也许今年 (2022 年) 在基准提升上已经达到瓶颈,但在 2012-2018 年的这 7 年间,研究人员取得了很多进展和成果。

在生成建模的其他领域,研究人员一直在降低语言模型的复杂性,以及生成模型在图像上的每维 bit 数(bits-per-dimension)。


下面大致比较一下通用基准的评估速度。2012 年 ImageNet 目标识别测试集中有 150000 个图像。假设每个图像的推理速度为 10ms,并且每次是连续评估每个图像,这样评估每个测试示例大约需要 25 分钟(实际上评估速度要快得多,因为可以进行批量处理)。但这里假设我们只有单台机器人进行评估操作,并且必须连续处理图像。

因为有海量图像,所以我们可以得到标准误差估计在 0.1% 以内。事实上我们不需要 0.1% 的标准误差才能在该领域取得进展,可能 1% 就够了。

在评估复杂性方面,端到端的性能也是重要的一块。下面我们来看看怎样进行神经网络在模拟任务中的端到端性能评估。Habitat Sim 是目前速度最快的模拟器之一,其设计目的是最大限度地减少神经网络推理和环境步进之间的开销。模拟器可以每秒 10000 step,但由于神经网络的正向传递约为 10ms,该瓶颈导致每个 episode 的评估时间为 2 秒(假设典型的 navigation episode 为 200 step)。这比运行真正的机器人快得多,但比评估单个计算机视觉样本慢得多。

如果要评估端到端的机器人系统,其多样性水平与我们使用 ImageNet 所做的相似,普通的评估需要 1 周时间来处理数十万个评估场景。这并不完全是合理的比较,因为每个 episode 实际上有 200 个左右的推理过程,但我们不能将单个 episode 内的图像视为独立的验证集。如果没有任何其它 episode 度量,我们只知道任务是否成功,因此 episode 内的所有推理只对二项式估计的单个样本有贡献。我们必须根据数万个 episode 而不是图片来估计成功率。当然,我们可以尝试使用其他策略评估方法,但这些算法还不够可靠,无法开箱即用。

接下来阶段,我们对真实机器人进行现场评估。在现实世界中每个 episode 大约需要 30 秒的时间进行评估,如果一个由 10 名操作员组成的团队进行评估,每个操作员每天可以完成 300 个 episode,那么每天可以进行大约 3000 次评估。

如果评估模型需要一整天的时间,这会对工作效率造成很大的限制,因为这样每天只能尝试一种想法。所以我们不能再研究那些将性能逐步提高 0.1% 的小想法,或者非常极端的想法。我们必须想办法在性能上实现大飞跃。虽然这看起来不错,但在实践中很难做到。

当考虑进行机器人学习迭代过程时,很容易让评估试验的数量远远超过你的训练数据!几个月的不间断评估产生了约数万个 episode,这已经超过了大多数机器人深度学习演示数据集。

几年前,研究人员仍在解决类似让机械臂开门的问题,但这些策略不能进行很好的泛化。研究人员通常按照 10 个 episode 左右的顺序进行评估。但 10-50 次试验实际上不足以保证统计鲁棒性。为了取得好的效果,实际可能要进行超过 1000 次试验以进行最终评估。

但当进一步扩展试验时会发生什么呢?假如我们最终需要训练具有 O(100,000)种行为、极其通用的机器人系统,我们需要多少次试验来评估这样的通用系统?这里的评估成本变得极其高昂。

这里再强调一次:数据是足够的,评估存在瓶颈!


相关文章
|
8月前
|
人工智能 关系型数据库 分布式数据库
沉浸式学习PostgreSQL|PolarDB 9: AI大模型+向量数据库, 提升AI通用机器人在专业领域的精准度, 完美诠释柏拉图提出的“知识是回忆而不是知觉”
越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前,大语言模型在处理通用问题方面表现较好,但由于训练语料和大模型的生成限制,对于垂直专业领域,则会存在知识深度和时效性不足的问题。在信息时代,由于企业的知识库更新频率越来越高,并且企业所拥有的垂直领域知识库(例如文档、图像、音视频等)往往是未公开或不可公开的。因此,对于企业而言,如果想在大语言模型的基础上构建属于特定垂直领域的AI产品,就需要不断将自身的知识库输入到大语言模型中进行训练。
873 0
|
2月前
|
人工智能 机器人 芯片
英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言
在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。
|
2月前
|
人工智能 机器人 Go
人类发明及研究AI机器人是在作死吗?
生化武器、X战警,当时看电影时只是感觉电影很精彩,佩服导演的脑洞大,制作团队技术精湛。但自从 alpha go、chatGPT 越来越多的AI 场景被大众认知,越来越相信总有一天这个美丽的蓝色星球未来的主人会变成机器人,人类将不复存在。
42 3
|
2月前
|
传感器 人工智能 自然语言处理
智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人
智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人
智能咖啡厅助手:人形机器人 +融合大模型,行为驱动的智能咖啡厅机器人
|
3月前
|
人工智能 自然语言处理 机器人
自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人
如今,大模型层出不穷,这为自然语言处理、计算机视觉、语音识别和其他领域的人工智能任务带来了重大的突破和进展。大模型通常指那些参数量庞大、层数深、拥有巨大的计算能力和数据训练集的模型。 但不能不承认的是,普通人使用大模型还是有一定门槛的,首先大模型通常需要大量的计算资源才能进行训练和推理。这包括高性能的图形处理单元(GPU)或者专用的张量处理单元(TPU),以及大内存和高速存储器。说白了,本地没N卡,就断了玩大模型的念想吧。 其次,大模型的性能往往受到模型调优和微调的影响。这需要对模型的超参数进行调整和优化,以适应特定任务或数据集。对大模型的调优需要一定的经验和专业知识,包括对深度学
自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人
|
5月前
|
传感器 机器学习/深度学习 算法
利用STM32实现自平衡机器人功能与方法
利用STM32实现自平衡机器人功能与方法
37 0
|
6月前
|
自然语言处理 运维 Cloud Native
运维大模型探索之 Text2PromQL 问答机器人
本文主要介绍将AIGC技术运用到可观测领域的探索。
|
7月前
|
人工智能 自然语言处理 机器人
探秘小米增程汽车与仿生机器人的未来:AI大模型的潜在影响及苹果iPhone15Pro发热问题解决之道
探秘小米增程汽车与仿生机器人的未来:AI大模型的潜在影响及苹果iPhone15Pro发热问题解决之道
173 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型与机器人:一场人工智能的革新
在人工智能(AI)的世界中,大型模型和机器人已经成为了重要的研究方向。这两者都利用了大量的数据和复杂的算法,以实现各种复杂的任务。本文将深入探讨大模型和机器人之间的关系,以及它们如何共同推动人工智能的发展。
84 0
|
9月前
|
人工智能 自然语言处理 机器人
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
180 0